机器之心报导
编纂:杜伟、泽南
通用 AI 的重要里程碑。
通用智能需要处理多个范畴的使命。人们认为强化进修算法具有那种潜力,但它不断遭到为新使命调整所需资本和常识的障碍。在 DeepMind 的一项新研究中,研究人员展现了基于世界模子的通用可扩展的算法 DreamerV3,它在具有固定超参数的普遍范畴中优于以前的办法。
DreamerV3 契合的范畴包罗持续和离散动做、视觉和低维输入、2D 和 3D 世界、差别的数据量、奖励频次和奖励品级。值得一提的是,DreamerV3 是第一个在没有人类数据或主动教育的情况下从零起头在《我的世界》(Minecraft)中搜集钻石的算法。研究人员暗示,如许的通用算法能够使强化进修得到普遍应用,并有望扩展到硬决策问题。
钻石是《我的世界》游戏中更受欢迎的物品之一,它是游戏中最稀有的物品之一,可被用来造做游戏中绝大大都最强的东西、兵器以及盔甲。因为只要在最深的岩石层中才气找到钻石,所以产量很低。
DreamerV3 是第一个在我的世界中搜集钻石的算法,无需人工演示或手动造做课程。该视频显示了它搜集的第一颗钻石,发作在 30M 情况步数 / 17 天游戏时间之内。
若是你关于 AI 玩我的世界没有什么概念,英伟达 AI 科学家 Jim Fan 暗示,和 AlphaGo 下围棋比,我的世界使命数量是无限的,情况变革是无限的,常识也是有隐藏信息的。

关于人类来说,在我的世界里摸索和构建是有趣的事,围棋则显得有些复杂,关于 AI 来说,情况刚好相反。AlphaGo 在 6 年前击败了人类冠军,但如今也没有能够和我的世界人类高手媲美的算法呈现。
早在 2019 年炎天,我的世界的开发公司就提出了「钻石挑战」,赏格能够在游戏里找钻石的 AI 算法,曲到 NeurIPS 2019 上,在提交的 660 多份参赛做品中,没有一个 AI 能胜任那项使命。
但 DreamerV3 的呈现改动了那一现状,钻石是一项高度组合和持久的使命,需要复杂的摸索和规划,新算法能在没有任何人工数据辅助的情况下搜集钻石。或许效率还有很大改良空间,但 AI 智能表现在能够从头起头进修搜集钻石那一事实自己,是一个重要的里程碑。
DreamerV3 办法概述
论文《Mastering Diverse Domains through World Models》:

论文链接:https://arxiv.org/abs/2301.04104v1
DreamerV3 算法由三个神经收集构成,别离是世界模子(world model)、critic 和 actor。那三个神经收集在不共享梯度的情况下按照回放经历同时训练,下图 3(a)展现了世界模子进修,图(b)展现了 Actor Critic 进修。

为了获得跨域胜利,那些组件需要适应差别的信号幅度,并在它们的目的中稳健地平衡项。那是具有挑战性的,因为不只针对统一范畴内的类似使命,并且还要利用固定超参数跨差别范畴停止进修。
DeepMind 起首解释了用于预测未知数量级的简单变更,然后介绍了世界模子、critic、actor 以及它们的稳健进修目的。成果发现,连系 KL 平衡和自在位能够使世界模子无需调整进修,而且在不强调小回报(small return)的情况下,缩小大回报实现了固定的战略熵正则化器。
Symlog 预测
重建输入以及预测奖励和价值具有挑战性,因为它们的规模可能因范畴而异。利用平方丧失预测大目的会招致发散,而绝对丧失和 Huber 丧失会使进修停滞。另一方面,基于运行统计数据的归一化目的将非平稳性引入优化。因而,DeepMind 提出将 symlog 预测做为处理那一难题的简双方法。
为此,具有输入 x 和参数 θ 的神经收集 f (x, θ) 进修预测其目的 y 的变更版本。为了读出该收集的预测 y^,DeepMind 利用了逆变更,如下公式(1)所示。

从下图 4 中能够看到,利用对数(logarithm)做为变更无法预测具有负值的目的。

因而,DeepMind 从双对称对数族中选择一个函数,定名为 symlog 并做为变更,同时将 symexp 函数做为逆函数。

symlog 函数压缩大的正值和负值的大小。DreamerV3 在解码器、奖励预测器和 critic 中利用 symlog 预测,还利用 symlog 函数压缩编码器的输入。
世界模子进修
世界模子通过自编码进修感官输入的紧凑暗示,并通过预测将来的暗示和潜在行为的奖励来实现规划。
如上图 3 所示,DeepMind 将世界模子实现为轮回形态空间模子 (RSSM)。起首,编码器将感官输入 x_t 映射到随机暗示 z_t,然后具有轮回形态 h_t 的序列模子在给定过去动做 a_t−1 的情况下预测那些暗示的序列。h_t 和 z_t 的串联构成模子形态,从中预测奖励 r_t 和 episode 持续标记 c_t ∈ 并重建输入以确保信息暗示,详细如下公式(3)所示。

下图 5 可视化了 world world 的持久视频预测。编码器息争码器利用卷积神经收集 (CNN) 停止视觉输入,利用多层感知器 (MLP) 停止低维输入。动态、奖励和持续预测器也是 MLPs,那些暗示从 softmax 散布的向量中采样而来。DeepMind 在采样步调中利用了曲通梯度。

Actor Critic 进修
Actor Critic 神经收集完全从世界模子预测的笼统序列中进修行为。在情况交互期间,DeepMind 通过从 actor 收集中采样来选择动做,无需停止前瞻性规划。

尝试成果
DeepMind 停止了普遍的实证研究,以评估 DreamerV3 在固定超参数下跨差别范畴(超越 150 个使命)的通用性和可扩展性,并与已有文献中 SOTA 办法停止比力。此外还将 DreamerV3 应用于具有挑战性的视频游戏《我的世界》。
关于 DreamerV3,DeepMind 间接陈述随机训练战略的性能,并制止利用确定性战略停止零丁评估运行,从而简化了设置。所有的 DreamerV3 智能体均在一个 Nvidia V100 GPU 长进行训练。下表 1 为基准概览。

为了评估 DreamerV3 的通用性,DeepMind 在七个范畴停止了普遍的实证评估,包罗持续和离散动做、视觉和低维输入、密集和稀少奖励、差别奖励标准、2D 和 3D 世界以及法式生成。下图 1 中的成果发现,DreamerV3 在所有范畴都实现了强大的性能,并在此中 4 个范畴的表示优于所有以前的算法,同时在所有基准测试中利用了固定超参数。

更多手艺细节和尝试成果请参阅原论文。
发表评论