谷歌新模型可大幅提升AI解数学题的水平
| 来源:【字号:大 中 小】
6月29日,谷歌在预印本平台arxiv.org上提交了一篇论文,其提出的新语言模型Minerva学会了人类做数学题时“步步推理”的方法,将AI做数学题的水平提到新高度。此外,Minerva还能解决物理、数论、几何、生物、化学、天文学等众多问题。
在定量推理(即解决数学问题)方面,语言模型和人类相比还有很大差距。通常认为,使用机器学习来解决定量推理问题,需要在模型架构和训练技术方面取得显著进步。谷歌的研究通过收集与定量推理问题相关的训练数据、大规模训练模型,以及使用先进的推理技术,在各种较难的定量推理任务上取得了显著的性能提升。
Minerva将自然语言和LaTeX数学表达式组合来解析和回答数学问题,没有明确的底层数学结构。Minerva结合了小样本提示、思维链、暂存器提示、多数投票原则等多种技术,在STEM推理任务上实现SOTA性能。在MATH数据集上,Minerva能实现50%的准确率,而一个不特别喜欢数学的计算机科学博士生能答对大约40%。
谷歌的定量推理方法并不是以形式数学为基础。这种方法存在一个重要局限,模型的答案无法获得自动验证。即使最终答案已知并且可以验证,模型也可以使用错误的推理步骤得出正确的最终答案,而这无法自动检测到。
信息来源:
arxiv.org/abs/2206.14858
https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
机器之心. https://www.jiqizhixin.com/articles/2022-07-01-8