产品评测 7月前 • 969 阅读 • 0 评论

谁是最强编程大模型？横向对比GPT-5、GPT-5 Codex、Claude Sonnet 4.5、Gemini 2.5 Pro

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

模型众多，该如何选择？

GPT-5：OpenAI的最新旗舰模型，统一智能系统，GPT-5 集成了多个模型，自动根据任务复杂度选择最适合的模型进行处理，多模态首选。

GPT-5 Thinking：GPT-5 系列中的一个特定模式，专为处理复杂任务而设计。适用于科学研究、复杂编程任务和高难度的逻辑推理等领域。

GPT‑5-Codex：OpenAI旗舰编码模型，GPT-5和Codex的完美结合，编码能力反超Claude Opus 4.1，业界公认最强编码大模型。

Sora2：OpenAI最新旗舰视频和音频生成模型 Sora 2，它能够创建具有高度真实感的复杂背景音景、语音和音效。

Gemini 2.5 Pro：谷歌最新模型，在写作、编程、数学、推理、科研等基准测试中，全部刷新SOTA。

Grok 4：马斯克发布的最新模型，多项测试全面刷新SOTA，数学、科研、推理首选。

DeepSeek R1 0528：国产之光，开源最强模型，在整体表现上已接近其他国际顶尖模型，已解决“服务器繁忙，请稍后再试”问题。

先说结论：

编程能力：GPT-5 Codex > Claude Sonnet 4.5 > GPT-5 > Gemini 2.5 Pro

首先可以明确的是，四大模型给出的代码都没有bug，测试通过率都是100%，牛逼。

AI编程发展到如今这个程度，除了还需要人工配合外，其它的内容貌似都能干了。

程序员只负责使用AI辅助编程 + 抽烟摸鱼了。

GPT-5 Codex给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明（包含边界用例）。

理由：

1、只有GPT-5 Codex对Java代码进行自测、给出了边界测试用例，小胜一筹。

2、Claude Sonnet 4.5作为Anthropic的最新旗舰模型，表现亮眼，但未给出边界测试用例，屈居第二。

3、GPT-5不是一次性完成，是通过多次连续提问，才给出了最后的答案，差评，但上下文较长，加分项。

4、Gemini 2.5 Pro没有明确表示对给出的代码进行自测、也未给出了边界测试用例。

GPT-5 Codex

准确性：通过本地IDEA自测，通过率100%

GPT-5 Codex给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、对Java代码进行测试、测试用例及说明（包含边界用例）。

Claude Sonnet 4.5

准确性：通过本地IDEA自测，通过率100%

Claude Sonnet 4.5给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、测试用例及说明（不包含边界用例）。

GPT-5

准确性：通过本地IDEA自测，通过率100%

GPT-5给出了解题思路、算法步骤、详细的Java 代码、详细的代码注释、对Java代码进行自测、测试用例及说明（不包含边界用例）。

回答中没有明确表明：对Java代码测试用例自测。

Gemini 2.5 Pro

Gemini 2.5 Pro给出了解题思路与算法分析（包含问题本质、采用的数据结构和算法）、详细的Java 代码、详细的代码注释、测试用例及说明（不包含边界用例）。

文章来自于微信公众号 “哪吒编程”，作者 “哪吒编程”

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

推荐文章

“消费动机MVP模型”仅用42元就能锁定“价值主张PMF”

“消费动机MVP模型”仅用42元就能锁定“价值主张PMF”

6月前 • 产品评测

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

体验了一周 ChatGPT 浏览器，我还是把 Chrome 装了回来

6月前 • 产品评测

一手实测Qwen-3 Max Thinking, 我觉得一般

一手实测Qwen-3 Max Thinking, 我觉得一般

6月前 • 产品评测

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

开发者生产力“平替”？MiniMax M2全面测评：代码、速度与迁移成本

6月前 • 产品评测

价格屠夫AMD，刺伤Intel却打不过英伟达

价格屠夫AMD，刺伤Intel却打不过英伟达

6月前 • 产品评测

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 产品评测

小米第三款车YU9多张实车谍照曝光；微软开售WinXP限量版拖鞋，约570元；配备M5芯片的苹果新品或本月发布 | 极客头条

小米第三款车YU9多张实车谍照曝光；微软开售WinXP限量版拖鞋，约570元；配备M5芯片的苹果新品或本月发布 | 极客头条

7月前 • 产品评测

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

Figure三代机器人发布：洗衣洗碗家务全包！网友：非人形没有出路

7月前 • 产品评测

热门标签

AI大模型体验评测 Skala StableDiffusion安装包自定义GPTs 扩展 AI前端开发工具 VisualCloze 鸣潮今州杯s5 AI绘画入门教程 ai电商作图

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝