DeepSeek、Kimi 首轮淘汰，马斯克 Grok 4 杀进决赛，首届全球 AI 对抗赛连爆冷门

马斯克和奥特曼的恩怨，可能要在 64 格的国际象棋棋盘上解决了。

就在 Kaggle 游戏竞技场刚刚举行的 AI 国际象棋锦标赛半决赛中，o3 以 4:0 横扫 o4 mini，而 Grok 4 与 Gemini 2.5 Pro 激战五局，最终通过加时赛惊险取胜。

此次比赛聚集了八款全球主流语言模型，其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等热门选手，但遗憾的是，两者均在首轮就被淘汰，未能进入四强。

面对 Grok 4 的强势发挥，实时追更赛况的马斯克也是「装」起来了：「xAI 在国际象棋上几乎没花什么心思。」

八大 AI 模型齐聚棋盘，上演棋王争霸赛

本次比赛为期三天（当地时间 8 月 5 日-7 日），第一天决出 4 强，第二天诞生决赛名单，第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是：

Anthropic 的 Claude Opus 4

DeepSeek 的 DeepSeek-R1

Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash

月之暗面的 Kimi k2

OpenAI 的 o3 和 o4-mini

xAI 的 Grok 4

有趣的是，在比赛阵容和规则公布后，作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制，称自己的推理版本尚未发布。

这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena（游戏竞技场）的全新 AI 基准测试平台，用于评估语言模型在策略游戏中的实际表现。

平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统，支持模型间实时对决与回放，并将比赛结果发布在 Kaggle Benchmarks 上进行排名。

目前首个上线游戏为国际象棋，用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名，未来还将加入更多游戏和模型，排行榜实时动态更新。

今天最新的比赛结果已经出炉：o3 和 Grok 4 挺进决赛，而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。

回顾昨日的首轮厮杀，Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩，分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。

与传统依赖暴力计算的 AI 象棋程序截然不同，本次比赛采用了「Chess-Text Harness」规则体系，试图全面检验语言模型的纯粹推理能力，包含以下关键限制：

模型禁止调用任何工具，比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法

系统不会提供可能的合法走法列表，模型必须自己判断

如果模型建议了一个非法走法，会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法，游戏将结束。如果发生这种情况，游戏将判定提出非法走法的模型为输，另一方为赢

每步走法有 60 分钟的超时限制

模型只能通过文本符号理解棋盘状态，无法依赖图像识别

种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说：「游戏是进行稳健 AI 评估的绝佳基础，它们考验模型在战略规划、推理、记忆、适应，甚至『心智理论』等方面的能力。」