开云体育(中国)官方网站传统UED瓶颈被突破, 强化学习也能精确定位「最近发展区」

发布日期：2026-05-25 19:50 来源：未知作者：admin 浏览次数：

开云体育(中国)官方网站传统UED瓶颈被突破，强化学习也能精确定位「最近发展区」

本文第一作家来自国防科技大学数智建模与仿真国度级重心实验室（State Key Laboratory of Digital Intelligent Modeling and Simulation）2024 级博士生原方，通信作家为国防科技大学曾俊杰助理接洽员、李庆伦博士，并由尹三军接洽员、秦龙副老师、沈想淇长聘副老师（厦门大学）、谢毓湘老师、杨俊强副接洽员共同互助完成。接洽团队永久聚焦建效法真、强化学习等琢磨地点接洽。

西宾强化学习智能体时，一个常见问题是：有些 level 太简易，智能体跑几遍就会；有些 level 又太难，智能体险些得不到有用响应。前者仅仅在类似已有智商，后者则会把西宾预算破钞在无效探索上。实在有价值的西宾环境，经常位于二者之间。它刚好杰出智能体现时智商领域，但又莫得难到十足学不会。换句话说，强化学习西宾也存在某种「最近发展区」：高效西宾的关节，不仅仅生成更多 level，而是找到现时阶段最值得学的 level。

Unsupervised Environment Design（UED）恰是围绕这一问题张开。UED 不再把西宾环境看作固定数据集，而是通过自动生成、遴荐或重放 level，动态塑造西宾漫衍，让智能体在接续学习中得回更好的泛化智商。但 UED 面对一个中枢辛勤：系统需要知谈，哪些 level 实在推动了智能体学习。

近日，来自国防科技大学、厦门大学等机构的接洽者刻薄了 PACE（Parameter Change Environment Design）。PACE 使用 level 疏导的计策参数变化行动西宾价值信号，凯旋规划该 level 是否带来本色学习进展。该责任已被 ICML 2026 接纳。

论文题目：PACE: Parameter Change for Unsupervised Environment Design

论文通顺：https://doi.org/10.48550/arXiv.2605.01358

UED：让西宾环境我方造成课程

UED 的起点并不复杂。传统强化学习频繁先给定一批西宾环境，再让智能体在其中反复学习。但西宾环境并非越多越好，也不是越难越好。若是 level 太简易，智能体很快插足「风物区」，只可闲逸也曾掌执的行为；若是 level 太难，智能体又会插足「心焦区」，永久得不到有用奖励。两种情况齐会减轻学习效果和最终泛化智商。

博亚体育中国一站式服务官网

在 UED 之前，Domain Randomization 也曾标明，环境千般性有助于进步泛化智商；但这类步伐频繁仅仅静态地立地采样环境参数，难以证据智能体现时的学习现象动态诊治西宾内容。

UED 进一步将「西宾什么」纳入学习过程：系统不再把西宾环境视为固定配景，而是动态生成、遴荐或重放 level，并证据某种评价信号决定哪些 level 更值得保留、重放或进一步裁剪。联想情况下，这些 level 应该接续逼近智能体现时智商领域：既不松驰被处理，开云体育(中国)官方网站也不十足超出可学习鸿沟。

现存 UED 步伐频繁需要一个 score 来评价 level。常见作念法包括 regret、GAE、MaxMC 等。这些信号在推行中有用，但它们更多从可解性差距、价值估量谬误或答复估量起程，莫得评估「此次西宾到底带来了若干计策校正」。另一类步伐更凯旋，举例 Marginal Benefit 会相比计策更新前后的进展变化，因此更接近实在学习跳跃。但它需要终点 rollout 来估量更新前后的答复，遐想支出更高，估量方差也更大。

因此，UED 的中枢问题就变成了：如何简易而准确地判断一个 level 是否实在推动了智能体的学习？

PACE：用参数变化规划学习跳跃

PACE 的中枢判断很凯旋：若是一个 level 实在促成了学习，那么智能体在这个 level 上西宾后，计策参数应该发生专门想的变化。也等于说，PACE 不再把 level 的价值栽植在 regret、GAE 或 Monte Carlo return 等迂覆信号上，而是凯旋不雅察该 level 疏导的计策更新。

进一步假定这一步更新沿着局部梯度地点进行，即

将其代入一阶张开，可开心见进步的近似面孔：

这个近似关系阐述：在局部梯度更新假定下，一个 level 带来的意见进步与其疏导的计策参数变化平淡范数成正比。因此，PACE 将 level score 界说为：

图 1：PACE 责任进程图。

基于这一 score，PACE 的运转过程不错分为两个部分：level scoring 和 policy training（图 1）。

整个过程不圮绝替进行：新 level 被生成并打分，高价值 level 被写入 buffer，buffer 中的 level 又被优先重放来西宾计策。由此，PACE 用计策参数变化构造出一种内生的学习跳跃信号，并用它驱动西宾课程随智能体智商动态演化。

实验截止：从迷宫泛化到绽开式任务

图 2：MiniGrid 上的零样本迁徙性能。

表 1：MiniGrid 上的全体泛化目的。

为了进一步磨真金不怕火 PACE 在更复杂任务中的适用性，论文还在 Craftax 上进行实验。Craftax 是一个面向绽开式强化学习的 JAX benchmark。跟着探索推动，智能体会遭受新的区域、机制和意见，任务漫衍也会接续变化，因此更能磨真金不怕火 UED 步伐是否能在长西宾过程中接续提供有用课程。

表 2：Craftax 上 20 个未见过 levels 上的平均答复和圭臬差。

结语与瞻望

在强化学习智能体需要接续符合未见环境的配景下，如何准确识别实在推动学习的 levels 是 UED 的关节问题；PACE 通过参数变化这一简易、低方差、遐想友好的内生信号，将环境评价凯旋栽植在 realized learning progress 之上，从而减少代理目的偏差、高方差估量和终点 rollout 支出的影响开云体育(中国)官方网站，并为构建更踏实、更可膨胀的自符合西宾课程提供了新的想路。

上一篇：上一篇：开云体育(中国)2026世界杯官方IOS|Android手机app下载四争二! 2亿决赛更换敌手, 三场比赛产生英超两席, 热刺契机最大

关于开云

开云体育(中国)官方网站 传统UED瓶颈被突破, 强化学习也能精确定位「最近发展区」

开云体育(中国)官方网站传统UED瓶颈被突破, 强化学习也能精确定位「最近发展区」