AI热点 2小时前 174 阅读 0 评论

DeepSeek、Kimi 首轮淘汰,马斯克 Grok 4 杀进决赛,首届全球 AI 对抗赛连爆冷门

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

马斯克和奥特曼的恩怨,可能要在 64 格的国际象棋棋盘上解决了。

就在 Kaggle 游戏竞技场刚刚举行的 AI 国际象棋锦标赛半决赛中,o3 以 4:0 横扫 o4 mini,而 Grok 4 与 Gemini 2.5 Pro 激战五局,最终通过加时赛惊险取胜。

此次比赛聚集了八款全球主流语言模型,其中就包括月之暗面的 Kimi K2 和 DeepSeek R1 等热门选手,但遗憾的是,两者均在首轮就被淘汰,未能进入四强。

面对 Grok 4 的强势发挥,实时追更赛况的马斯克也是「装」起来了:「xAI 在国际象棋上几乎没花什么心思。」

八大 AI 模型齐聚棋盘,上演棋王争霸赛

本次比赛为期三天(当地时间 8 月 5 日-7 日),第一天决出 4 强,第二天诞生决赛名单,第三天上演金牌和铜牌争夺战。参赛的八位 AI 选手分别是:

Anthropic 的 Claude Opus 4

DeepSeek 的 DeepSeek-R1

Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash

月之暗面的 Kimi k2

OpenAI 的 o3 和 o4-mini

xAI 的 Grok 4

有趣的是,在比赛阵容和规则公布后,作为参赛选手之一的 Kimi 在社交平台上公开「吐槽」匹配机制,称自己的推理版本尚未发布。

这场 AI 棋王争霸赛由 Google 旗下的 Kaggle 举办。Kaggle 推出了一个名为 Game Arena(游戏竞技场) 的全新 AI 基准测试平台,用于评估语言模型在策略游戏中的实际表现。

平台基于标准化的游戏环境、测试框架、可视化工具和排行榜系统,支持模型间实时对决与回放,并将比赛结果发布在 Kaggle Benchmarks 上进行排名。

目前首个上线游戏为国际象棋,用户可在 kaggle.com/game-arena 浏览赛程、对阵图和模型排名,未来还将加入更多游戏和模型,排行榜实时动态更新。

今天最新的比赛结果已经出炉:o3 和 Grok 4 挺进决赛,而 o4 mini 和 Gemini 2.5 Pro 则将为铜牌展开最后一战。

回顾昨日的首轮厮杀,Gemini 2.5 Pro、o4-mini、Grok 4 和 o3 均以摧枯拉朽的 4:0 战绩,分别淘汰 Claude Opus 4、DeepSeek R1、Gemini 2.5 Flash 和 Kimi k2。

与传统依赖暴力计算的 AI 象棋程序截然不同,本次比赛采用了「Chess-Text Harness」规则体系,试图全面检验语言模型的纯粹推理能力,包含以下关键限制:

模型禁止调用任何工具,比如它们不能直接调用 Stockfish 国际象棋引擎来获得最佳走法

系统不会提供可能的合法走法列表,模型必须自己判断

如果模型建议了一个非法走法,会给予最多 3 次重试机会。如果在总共四次尝试后模型仍未提交合法走法,游戏将结束。如果发生这种情况,游戏将判定提出非法走法的模型为输,另一方为赢

每步走法有 60 分钟的超时限制

模型只能通过文本符号理解棋盘状态,无法依赖图像识别

种种设置让比赛更像是测试 AI 的「象棋智商」。正如 Kaggle 团队所说:「游戏是进行稳健 AI 评估的绝佳基础,它们考验模型在战略规划、推理、记忆、适应,甚至『心智理论』等方面的能力。」

决赛再遇「老对手」,o3 和 Grok 4 冠军争夺战打响

让我们来回顾今天的比赛过程。

全程解说这场半决赛的是 YouTube 国际象棋界大 V GothamChess(Levy Rozman),坐拥 657 万订阅,不仅业务水平在线,吐槽功力也同样不俗。

OpenAI 的两个模型之间的对决毫无悬念。

o3 展现出了压倒性的实力,以 4:0 横扫 o4 mini,而最精彩的一幕出现在他们的一局中盘对决中。o4 mini 曾试图设置一个极其罕见的将死陷阱——靠主教走 h4 制造一个不挡就死、挡也亏的局面。

Levy Rozman 表示:「那可能是史上最罕见的将死方式!」

然而 o3 不仅识破了陷阱,还冷静地只用一步棋就化解了威胁,随后通过精准的战术组合,用车渗透后排,最终以主教 b5 将死结束比赛。

当然,真正的名场面出现在另一组对决——Grok 4 对阵 Gemini 2.5 Pro。

第一局,又是熟悉的西西里防御开局,但 Grok 4 很快就开始犯下一系列匪夷所思的错误,没下几步,就把主教走到 f7,直接白给。

(注释:西西里防御是国际象棋中黑方应对白方 1.e4 的经典开局,以 1…c5 非对称反击著称,攻防兼备、战术丰富,是最具侵略性的防御之一。)

随后的局面更是一边倒,Grok 在短短几步内就丢掉了皇后,Gemini 轻松获胜。

第二局 Grok 的开局表现依然糟糕。它再次在开局阶段就白送了一个骑士,但好在中后盘,扛住压力的 Grok 打出极佳战术组合,赢下了这盘棋。

Rozman 打趣道:「Grok 昨晚肯定在以 4:0 赢了 Gemini Flash 之后出去狂欢了,由于喝得酩酊大醉,现在才宿醉醒来。」

第三局开始,Grok 精准地走出了前 11 步电脑最佳走法,展现出了 Stockfish 般的水准。

虽然中盘又出现了一次失误(牺牲骑士),但关键时刻,它找到了一个绝妙的战术组合:通过推进 e5 兵,同时威胁对方的皇后和骑士,迫使 Gemini 陷入绝境。

「这太疯狂了!」Rozman 解说道,「无论黑方用皇后还是骑士吃掉白方在 e5 的兵,白方都能重新吃回并形成一系列走法,使黑方至少损失一个骑士。」

最终 Grok 通过主教 b5 将军,吃掉了 Gemini 的皇后,再次扳回一城。而 Gemini 赢下第四盘棋,成功将比赛拖入决胜局。

翘首以待,终于我们迎来了决赛局。

决胜局有个需要注意的特殊规则:如果和棋,执黑的 Grok 获胜,在国际象棋比赛中被称为「Armageddon」(世界末日)赛制。

因为执白方天生有先手优势,为了平衡这种优势,在决胜局中会给黑棋一些补偿,比如白棋必须赢棋才能获胜、黑棋只需要和棋就算获胜,有时还会给白棋更多思考时间(比如白棋 6 分钟,黑棋 5 分钟)。

Gemini 开局气势如虹,皇后深入腹地制造多重威胁,一度占据明显优势。然而,在关键时刻,Gemini 的皇后走到了一个完全不设防的位置。

不出意外,Grok 毫不客气地吃掉了对方的皇后,但戏剧性的一幕出现了,Grok 后续在占据优势(多一个皇后)的情况下,选择了重复移动棋子到相同的位置,导致了和棋。

(注释:重复局面是国际象棋中的一个规则,当完全相同的棋盘位置(包括所有棋子的位置、轮到谁走棋、易位权利等)出现三次时,任何一方都可以申请和棋。这个规则的目的是防止比赛无限进行下去。)

最后根据规则,和棋判定执黑的 Grok 依旧获胜。「Grok 在我们见过的最精彩的 AI 对决之一中淘汰了 Gemini Pro!」Rozman 总结道。

随着半决赛尘埃落定,明天当地时间(8 月 7 日)的决赛名单确定:OpenAI 的 o3 将迎战 xAI 的 Grok 4,一场映射着奥特曼与马斯克恩怨情仇的巅峰对决,即将在棋盘上展开。

而 o4 mini 与 Gemini 2.5 Pro 的铜牌争夺战同样值得期待。

本文来自微信公众号“APPSO”,作者:发现明日产品的APPSO,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!