创新与应用案例

谷歌大脑和DeepMind联合发布离线强化学习基准

日期:2020-07-22

|  来源:【字号:

最近,Google BrainDeepMind联合提出了一个称为RL Unplugged的基准,以评估和比较离线RL(强化学习)方法。RL Unplugged包含来自多个领域的数据,包括游戏(例如Atari基准测试)和模拟的电机控制等(例如DM Control Suite)。

离线RL可以从离线的数据中学习新策略,而无需与环境进行任何真实的交互。这种方法的问题是,现实世界的数据集不可能由单一的RL训练的策略产生,而且这种方法不能泛化到其他的场景。缺乏基线让算法评估变得困难。在当前的离线RL研究中,实际应用领域的重要属性、高维感知流(例如图像)、不同的动作空间等覆盖不全,非平稳性和随机性不足,使得现存的基准很难评估离线RL算法的实用性。

因此,比较算法并确保其可重复性显得尤为重要,RL Unplugged的目的就是通过提出通用的基准,数据集,评估协议和代码来解决这些问题。

来源:Arxiv.org
附件: