数字技术与基础设施

OpenAI最新模型o3展现强大推理能力

日期:2025-01-17

|  来源:【字号:

20241220日,美国OpenAI公司介绍了其最新的AI推理模型——o3及其轻量版o3-miniOpenAIo3具备先进、近似人类的推理能力,在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面,均超越了其“前辈”o1

2024年美国数学邀请赛中,o3模型的准确率高达96.7%,仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——FrontierMath中,o3也解决了25.2%的问题。尽管这一得分看似不高,但此前其他大语言模型曾在此集体翻车,正确率均未超过2%FrontierMath测试难度极大,而o3只需思考几分钟便能解答其中一道题目,人类数学家则要花费数小时到数天。

在对科学知识的掌握方面,o3的表现也超出一般博士水平。在GPQADiamond基准测试中,o3的准确率达到87.7%,超过了人类博士的70%,也比之前o1表现高近10%GPQADiamond是一项评估基准,主要用于评估模型在博士级科学问题上的表现,涵盖化学、物理和生物学方面的专业知识

此外,o3的编码能力也o1系列更胜一筹。在SWE-benchVerified基准上,o3的准确率约为71.7%,比o120%以上。在Codeforces编码竞赛平台中,o3的得分为2727,相当于榜单上第175名人类编程员的水平,而o1得分仅为1891其中,SWE-benchVerified是一项评估基准,主要用于评估AI模型解决现实世界软件问题的能力

不过,谷歌前工程师、评估基准ARC-AGI(旨在评估AI的适应性和泛化能力)主要创建者弗朗索瓦·肖莱表示,o3实现了惊人且重要的性能飞升,但仍未达到业内翘首以盼的通用AIAGI)水平,因为o3仍然无法解决ARC-AGI测试中一些非常简单的问题,这表明o3与人类智能还存在根本差异。

信息来源:

https://www.infoq.com/news/2024/12/openai-announces-o3/

https://www.newscientist.com/article/2462000-openais-o3-model-aced-a-test-of-ai-reasoning-but-its-still-not-agi/

https://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2024-12/26/content_582507.htm?div=-1


附件: