SECANT:用于视觉策略零样本泛化的自专家克隆
| 来源:【字号:大 中 小】
视觉强化学习方面,泛化很容易被高维观察空间中一些无关痛痒的因素分散了注意力。为此,斯坦福大学李飞飞团队提出了一种可以适应新测试环境的自专家克隆方法(Self Expert Cloning for Adaptation to Novel Test-environments)——SECANT模型。该方法能够依次解决策略学习和鲁棒性表征学习问题,从而实现了对未见过的视觉环境的强大零样本泛化性能。具体而言,该方法在两个阶段利用图像增广,首先是专家策略通过弱增广从头开始进行强化学习的训练,而后学生网络通过强增广的监督学习来模仿专家策略,其表征与专家策略相比,对视觉变化更具鲁棒性。
信息来源:
https://mp.weixin.qq.com/s/D9vOnSpF2jD6fAdmH1V1uw
https://arxiv.org/abs/2106.09678