产品评测 8月前 • 215 阅读 • 0 评论

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

HuggingFace

HuggingFace

0秒前

机器之心报道

机器之心编辑部

前沿 AI 模型真的能做到博士级推理吗？

前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

然而，现实可能并不如想象中那么乐观。

AAI，一个专注于超智能和高级 AI 系统研究的机构，近期提出的一个新基准 FormulaOne，让一众大模型集体得零分，包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。

HuggingFace：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne 包含 220 个新颖的图结构动态规划问题，按难度分为三类，从中等难度直至科研级别。其中最高等级难度的题包括拓扑与几何、组合问题分析等。

测试题的具体示例如下：依次是浅层难度、深层难度、更深层难度。

尽管这些问题陈述起来通常很自然，但其解决方案却远非显而易见。这一大类问题的可解性由 Courcelle 提出的一个算法元定理所保证，该定理大致可以表述为：

「对于每个足够类似树的图，任何可用一种富有表现力的形式逻辑（一元二阶逻辑）定义的问题，都可以通过一个动态规划算法来解决，且其运行时间与图的阶数成线性关系。」

其关键在于使用一种称为树分解的结构，它将图的顶点组织成一系列重叠的集合，即「袋」，而这些「袋」本身则以树状结构排列。

然后，算法可以遍历这个由「袋」构成的树，并使用动态规划分步解决问题。这个过程涉及到设计一个「状态」，该「状态」总结了「袋」内部分解的所有必要信息，然后定义当顶点被引入、遗忘或当「袋」被合并时，该「状态」如何转换。

视频链接：
https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg

问题陈述看似简单，但这背后实则掩盖了发现正确动态规划解法的非凡难度。这个过程遍布着微妙的组合与逻辑陷阱，要求（研究者）对问题的底层结构有深刻的理解。关于解决一个名为 Maximal-Cluster-Graph 的难题所需的十五个相互依赖的推理步骤，其详细的推演过程请参阅论文的附录。

论文地址：https://arxiv.org/pdf/2507.13337

这个工作在社交媒体上引发了很大关注，许多人表示应该让人类博士生也参与评估。

结果

在浅层难度上，顶尖模型的表现达到了 50%–70%，表明它们对相关问题类型已有一定熟悉度，换句话说，这些任务完全处于它们的训练分布之内。

在深层难度上，Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目；GPT-5 Pro 表现相对更好，但也只解出了 4/100。

在最深层难度上，所有模型的成功率均为 0%，集体崩溃。

AAI

AAI（AA-I Technologies，Double AI）是一家由以色列知名企业家、科学家 Amnon Shashua 于 2023 年 8 月在耶路撒冷创办的人工智能初创公司。

Shashua 是自动驾驶公司 Mobileye、AI21 Labs 和 OrCam 等多个知名项目的创始人，在自动驾驶、人工视觉和 AI 领域具有极高声誉。

AAI 的核心目标是推动「人工专家智能」（Artificial Expert Intelligence，AEI）的理论与应用，提出区别于传统窄域 AI 和 AGI 的新 AI 发展路径。这种 AEI 强调将领域知识与严密的科学推理能力相结合，旨在突破「只擅长特定任务」或「泛化无精度」的传统瓶颈，使 AI 可以像顶级人类专家一样，运用严谨推理来解决复杂科学或工程难题。

创立一年内，据报道公司已吸引了数千万美元投资，并在 AWS 2024 年生成式 AI 加速器项目中入选（获赠 100 万美元计算资源），加速自身 AI 基础设施建设。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

推荐文章

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 产品评测

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

5月前 • 产品评测

一手实测Qwen-3 Max Thinking, 我觉得一般

一手实测Qwen-3 Max Thinking, 我觉得一般

5月前 • 产品评测

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

5月前 • 产品评测

价格屠夫AMD，刺伤Intel却打不过英伟达

价格屠夫AMD，刺伤Intel却打不过英伟达

5月前 • 产品评测

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

6月前 • 产品评测

小米第三款车YU9多张实车谍照曝光；微软开售WinXP限量版拖鞋，约570元；配备M5芯片的苹果新品或本月发布 | 极客头条

小米第三款车YU9多张实车谍照曝光；微软开售WinXP限量版拖鞋，约570元；配备M5芯片的苹果新品或本月发布 | 极客头条

6月前 • 产品评测

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

6月前 • 产品评测

热门标签

AI旗舰应用是老师得助智能陪练2.0 具俊晔暴瘦发现《To The Hebe》 GenFlow2.0 宝宝起名 veo3影片全球 AI模型推理

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝