OpenAI推出FrontierScience基准测试以评估AI的科学推理能力----中国科学院网信工作网

数智化科研

OpenAI推出FrontierScience基准测试以评估AI的科学推理能力

日期：2025-12-29

| 来源：【字号：大中小】

2025年12月16日，美国OpenAI推出专家级基准测试FrontierScience，旨在评估AI大模型执行科学研究任务的能力。

据OpenAI介绍，不同于传统基准测试，FrontierScience的最终目标是评估AI大模型在形成科学假设、检验想法和跨学科综合分析等方面的能力。该基准包含700多道由物理学、化学和生物学领域专家编写和验证的原创题目，其中160道构成核心标准评估集。核心标准评估集分为两个部分：FrontierScience-Olympiad部分包含100道由国际科学奥赛奖牌得主设计的高度约束性问题；FrontierScience-Research部分则包含60个开放式的、实际研究工作中可能遇到的科学推理问题。

基于该基准，OpenAI公司初步评估了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini和OpenAI o3等多个前沿模型，其中GPT-5.2在FrontierScience-Olympiad（得分77%）和FrontierScience-Research（得分25%）中综合表现最佳。

OpenAI公司表示，目前FrontierScience基准测试虽然提供了更清晰的能力衡量标尺，但尚不能完整评估AI大模型在执行科学研究任务方面的能力，例如它不能评估假设生成、实验执行、多模态现实实验等。在未来，OpenAI将把FrontierScience扩展到更多科学领域，并将其与AI大模型对实际科学突破贡献的现实评价相结合，以实现最终目标：衡量AI大模型是否能帮助产生新颖科学发现。

信息来源：

https://openai.com/index/frontierscience/

附件：