技术与基础设施

DeepMind提出基于算法蒸馏的上下文强化学习方法

日期:2022-11-17

|  来源:【字号:

 

arXiv1025日消息,人工智能公司深度思维(DeepMind)提出了基于算法蒸馏(Algorithm DistillationAD)的上下文强化学习方法,是首个通过对具有模仿损失的离线数据进行顺序建模以展示上下文强化学习的方法,为强化学习算法通过模仿学习蒸馏成足够大的序列模型如Transformer,并将这些模型转换为上下文强化学习算法,提供了可能。

算法蒸馏通过建立因果序列模型将强化学习算法提取到神经网络中,把强化学习视为一个跨情节的序列预测问题,通过源强化学习算法生成一个学习历史数据集,然后将学习历史作为上下文,通过自回归预测来训练因果Transformer

与蒸馏后学习或专家序列的序列策略预测结构不同,AD能够在不更新其网络参数的情况下完全在上下文中改进其策略:Transfomer收集自己的数据,并在新任务上最大化奖励;无需提示或微调;在权重冻结的情况下,Transformer可探索、利用和最大化上下文的返回。

实验结果证明了AD可以在稀疏奖励、组合任务结构和基于像素观察的各种环境中进行强化学习,并且AD学习的数据效率比生成源数据的强化学习算法更高。

信息来源:

https://arxiv.org/abs/2210.14215v1

https://arxiv.org/pdf/2210.14215.pdf

附件: