美国谷歌公司提出基于AI反馈的强化学习技术----中国科学院网信工作网

技术前沿与科研应用

美国谷歌公司提出基于AI反馈的强化学习技术

日期：2023-10-31

| 来源：【字号：大中小】

2023年9月1日，美国谷歌公司研究人员提出了基于AI反馈的强化学习技术（RLAIF），为解决基于人类反馈的强化学习（RLHF）的限制提供了一种潜在的解决方案。

RLHF是一种利用人工指导来微调预先训练好的大型语言模型（LLM）的方法，已经在商业、教育、医疗等领域得到了广泛的应用。RLHF可以有效地将LLM与人类偏好相匹配，但收集高质量的人类偏好标签是一个关键瓶颈。

研究人员使用一个通用的LLM模型来代替人类对偏好进行标注，接着通过训练一个奖励模型来预测偏好。随后，又使用了三个指标来评估AI标签对齐度、准确率和胜率。实验结果证明，RLAIF可作为RLHF的一个可行替代选择。

信息来源：

https://arxiv.org/abs/2309.00267