AI热点 4月前 168 阅读 0 评论

国际象棋赛 OpenAI o3 模型碾压夺冠,马斯克的 Grok 决赛遭零封

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 8 月 14 日消息,在上周举行的“人工智能国际象棋表演赛”中,OpenAI 的 o3 模型以出色的表现赢得了冠军,在决赛中战胜了 xAI 的 Grok 4。此次比赛在谷歌旗下的 Kaggle 平台举办,共有八个 AI 模型参与角逐,经过三天的淘汰赛,最终决出冠亚季军。

比赛规则要求 AI 模型在未经过专门训练的情况下参赛,仅能在赛前从互联网上获取国际象棋相关知识。在决赛中,o3 以 4-0 的比分横扫 Grok 4,且在三场比赛中均以 4-0 的比分获胜,还在半决赛中轻松击败了同门的 o4 mini。

相比之下,Grok 4 在决赛前也展现了强大的实力,先后淘汰了谷歌的 Gemini 2.5 Flash 和 Gemini 2.5 Pro。当时,xAI 的创始人埃隆・马斯克曾表示,xAI “基本没在象棋上花功夫”。

IT之家注意到,国际象棋对弈网站 Chess.com 的总编辑 Pedro Pinhata 指出,Grok 4 在半决赛前似乎无人能敌,但在最后一天的比赛中,其优势被打破。国际象棋大师中村光在直播中评论称,Grok 4 在比赛中犯了很多错误,而 OpenAI 的 o3 则表现出色。另一位解说嘉宾、国际棋联世界排名第一的芒努斯・卡尔森表示,决赛中两个 AI 的水平相当于刚学会规则的普通棋手,大约 800ELO(等级分)。他指出,这些模型在计算吃子方面表现出色,但在将死对手方面则显得不足,更像“擅长收集食材,却不会做饭”。

值得注意的是,此前在国际象棋领域,专为该棋类设计的人工智能系统表现更为出色。例如,2019 年击败韩国棋手李世石的 AlphaGo 和上世纪击败国际象棋大师加里・卡斯帕罗夫的超级电脑“深蓝”,都是为特定棋类定制的程序。今年早些时候,在国际象棋大师 Levy Rozman 举办的锦标赛中,Grok 和 ChatGPT 均输给了专为国际象棋设计的人工智能系统 Stockfish。

比赛具体成绩如下:

  • 🥇 第 1 名:o3

    • 四分之一决赛:4 - 0 胜 Kimi K2 Instruct

    • 半决赛:4 - 0 胜 o4 mini

    • 决赛:4 - 0 胜 Grok 4

    • 总战绩:3 场全胜,胜局数 12,负局数 0

  • 🥈 第 2 名:Grok 4

    • 四分之一决赛:4 - 0 胜 Gemini 2.5 Flash

    • 半决赛:3 - 2 胜 Gemini 2.5 Pro

    • 决赛:0 - 4 负 o3

    • 总战绩:2 胜 1 负,胜局数 7,负局数 6

  • 🥉 第 3 名:Gemini 2.5 Pro

    • 四分之一决赛:4 - 0 胜 Claude Opus 4

    • 半决赛:2 - 3 负 Grok 4

    • 三四名决赛:2.5 - 1.5 胜 o4 mini

    • 总战绩:2 胜 1 负,胜局数 8.5,负局数 4.5

  • 第 4 名:o4 mini

    • 四分之一决赛:4 - 0 胜 DeepSeek-R1

    • 半决赛:0 - 4 负 o3

    • 三四名决赛:1.5 - 2.5 负 Gemini 2.5 Pro

    • 总战绩:1 胜 2 负,胜局数 5.5,负局数 6.5

  • 5-8 名(并列):

    • Kimi K2 Instruct(四分之一决赛 0 - 4 负 o3)

    • DeepSeek-R1(四分之一决赛 0 - 4 负 o4 mini)

    • Claude Opus 4(四分之一决赛 0 - 4 负 Gemini 2.5 Pro)

    • Gemini 2.5 Flash(四分之一决赛 0 - 4 负 Grok 4)

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!