DeepMind基于人工智能提出以人为中心的分配机制
| 来源:【字号:大 中 小】
2022年7月4日,DeepMind公司开发了名为“民主AI”(Democratic AI)的系统来解决收益再分配机制的公平问题,其中强化学习用于设计一种满足大多数人偏好的社会机制。相关研究成果发表在《自然-人类行为学》杂志上。
构建为人类所偏好的AI系统遇到的挑战之一是“价值一致性”问题,人类拥有多种观点,AI应该与谁的偏好保持一致?该系统融合了人类思想家和专家解决再分配问题提出的想法,设计出更受欢迎的分配策略。研究人员将现代深度强化学习与一种古老的技术相结合,在相互冲突的观点之间进行仲裁,开发以人为中心的研究方法。
在第一个实验中,研究人员开发了一个人机交互循环研究管道解决公共资金的分配策略问题。首先,收集人类数据的初始样本,然后使用它来训练“虚拟人类玩家”,这些反复出现的神经网络在游戏中学习模仿人类行为,并根据与人类玩家相同的原则投票。然后,利用深度强化学习优化机制设计,利用策略梯度法最大化虚拟人类玩家的投票。最后,对一组新的人类样本进行了采样,并将强化学习设计的再分配机制与竞争对手的基线进行了对比。
在实验二中,用于设计机制的神经网络被称为机制设计者,并使用术语人类兼容机制(HCRM)来指代它设计的机制,该机制仅在训练收敛后才能获得。研究人员根据上面介绍的三个规范基线评估了人工智能设计的HCRM,发现HCRM比三条基线都更受欢迎。
在实验三中,57.2%的参与者更喜欢HCRM而不是RM(rational mechanism),是因为深度强化学习发现了一种混合机制,它避开了传统上提出的再分配方案。HRCM奉行一种广泛的自由平等主义政策,通过对参与者的贡献与捐赠的比例进行补偿,来缩小先前存在的收入差距。
在实验四中,研究人员首先招募了61名之前的玩家,并在大约1个小时的时间内训练他们作为人类裁判,然后招募了另外一组新的人类玩家在HCRM下进行一场游戏,在训练有素的人类裁判下进行另一场游戏。结果证明,这些人类玩家强烈倾向于HCRM而不是人类裁判的判别机制。
信息来源:
https://www.nature.com/articles/s41562-022-01383-x
https://www.thepaper.cn/newsDetail_forward_19176882