数字技术与基础设施

OpenAI推出o1大模型 强化学习突破LLM推理极限

日期:2024-10-10

|  来源:【字号:

2024913日,OpenAI正式发布了还只是预览版的o1-previewo1就是此前业界一直在“高调宣传”的草莓大模型,拥有真正的通用推理能力。o1-preview在一系列高难基准测试中展现出超强实力,相比GPT-4o提升巨大,首次证明了语言模型可以进行真正的强化学习。对于复杂的推理任务来说,这是一个重大进步,代表了AI能力的新水平。

基于o1的聊天机器人可以在回答问题前先仔细思考,而不是立即脱口而出答案。就像人类大脑的系统1和系统2,聊天机器人已经从仅使用系统1(快速、自动、直观、易出错)进化到了可使用系统2思维(缓慢、深思熟虑、有意识、可靠),从而能够解决以前无法解决的问题。

o1是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1在回答之前会思考——在响应用户之前产生一个很长的内部思维链。通过训练,o1还学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

OpenAI的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI还发现o1在数学和编码方面表现出色。在国际数学奥林匹克资格考试中,GPT-4o仅正确解答了13%的问题,而o1模型正确解答了83%的问题。

信息来源:

https://openai.com/index/introducing-openai-o1-preview/

https://mp.weixin.qq.com/s/sGcx90Q_uI8se-DKosj9dw


附件: