OpenAI推出o1大模型强化学习突破LLM推理极限----中国科学院网信工作网

数字技术与基础设施

OpenAI推出o1大模型强化学习突破LLM推理极限

日期：2024-10-10

| 来源：【字号：大中小】

2024年9月13日，OpenAI正式发布了还只是预览版的o1-preview。o1就是此前业界一直在“高调宣传”的草莓大模型，拥有真正的通用推理能力。o1-preview在一系列高难基准测试中展现出超强实力，相比GPT-4o提升巨大，首次证明了语言模型可以进行真正的强化学习。对于复杂的推理任务来说，这是一个重大进步，代表了AI能力的新水平。

基于o1的聊天机器人可以在回答问题前先仔细思考，而不是立即脱口而出答案。就像人类大脑的系统1和系统2，聊天机器人已经从仅使用系统1（快速、自动、直观、易出错）进化到了可使用系统2思维（缓慢、深思熟虑、有意识、可靠），从而能够解决以前无法解决的问题。

o1是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是，o1在回答之前会思考——在响应用户之前产生一个很长的内部思维链。通过训练，o1还学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在OpenAI的测试中，该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI还发现o1在数学和编码方面表现出色。在国际数学奥林匹克资格考试中，GPT-4o仅正确解答了13%的问题，而o1模型正确解答了83%的问题。

信息来源：

https://openai.com/index/introducing-openai-o1-preview/

https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw

附件：

<上一篇