OpenAI最新模型o3展现强大推理能力----中国科学院网信工作网

网站地图| 中国科学院

目录

数字技术与基础设施

OpenAI最新模型o3展现强大推理能力

日期：2025-01-17

| 来源：【字号：大中小】

2024年12月20日，美国OpenAI公司介绍了其最新的AI推理模型——o3及其轻量版o3-mini。OpenAI称o3具备先进、近似人类的推理能力，在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面，均超越了其“前辈”o1。

在2024年美国数学邀请赛中，o3模型的准确率高达96.7%，仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中，o3也解决了25.2%的问题。尽管这一得分看似不高，但此前其他大语言模型曾在此“集体翻车”，正确率均未超过2%。Frontier Math测试难度极大，而o3只需思考几分钟便能解答其中一道题目，人类数学家则要花费数小时到数天。

在对科学知识的掌握方面，o3的表现也超出一般博士水平。在GPQA Diamond基准测试中，o3的准确率达到87.7%，超过了人类博士的70%，也比之前o1表现高近10%。GPQA Diamond是一项评估基准，主要用于评估模型在博士级科学问题上的表现，涵盖化学、物理和生物学方面的专业知识。

此外，o3的编码能力也比o1系列更胜一筹。在SWE-bench Verified基准上，o3的准确率约为71.7%，比o1高20%以上。在Codeforces编码竞赛平台中，o3的得分为2727，相当于榜单上第175名人类编程员的水平，而o1得分仅为1891。其中，SWE-bench Verified是一项评估基准，主要用于评估AI模型解决现实世界软件问题的能力。

不过，谷歌前工程师、评估基准ARC-AGI（旨在评估AI的适应性和泛化能力）主要创建者弗朗索瓦·肖莱表示，o3实现了惊人且重要的性能飞升，但仍未达到业内翘首以盼的通用AI（AGI）水平，因为o3仍然无法解决ARC-AGI测试中一些非常简单的问题，这表明o3与人类智能还存在根本差异。

信息来源：

https://www.infoq.com/news/2024/12/openai-announces-o3/

https://www.newscientist.com/article/2462000-openais-o3-model-aced-a-test-of-ai-reasoning-but-its-still-not-agi/

https://digitalpaper.stdaily.com/http_www.kjrb.com/kjrb/html/2024-12/26/content_582507.htm?div=-1

附件：

<上一篇下一篇>

中国科学院

© 1996 - 中国科学院网信工作网中国科学院科技基础能力局主办

京ICP备05002857号-1 京公网安备110402500047号网站标识码bm48000033