AI热点 8月前 • 109 阅读 • 0 评论

Claude Opus 4.1深夜狙击OpenAI，SWE-bench编程卷到74.5%，预告更强大模型

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

智东西

编译 | 王涵

编辑 | 漠影

智东西8月6日消息，今天，Anthropic正式发布Claude Opus 4.1。

据Anthropic公告，新模型在智能体工具调用、智能体编程与多语言问答能力上全面超越OpenAI o3，Anthropic还计划在未来数周内为模型推出更大幅度的改进。

Anthropic推文截图（来源：X）

Opus 4.1现已面向付费Claude用户及Claude Code提供，该版本同时登陆API、Amazon Bedrock和Google Cloud的Vertex AI平台，开发者可通过API使用claude-opus-4-1-20250805版本。

在定价上，Opus 4.1与Opus 4保持一致，输入15美元（约合人民币107.8元）/百万token，输出75美元（约合人民币538.8元）/百万token。

性能方面，Opus 4.1在SWE-bench Verified上的顶级编码性能提升至74.5%，该版本还增强了Claude的深度研究与数据分析能力，特别是在细节追踪和智能体搜索方面。

在GitHub上，相较于Opus 4，Claude Opus 4.1在多数能力维度均有提升，其中多文件代码重构的性能进步尤为显著。

Opus 4.1在智能体工具调用与多语言问答能力上超越OpenAI o3，在智能体编程方面的分数为74.5%和43.3%，大幅超越OpenAI o3和Gemini 2.5 Pro，但其在视觉推理和数学能力上与OpenAI o3和Gemini 2.5 Pro还有一定的差距。

Anthropic的公告中透露，Rakuten Group发现Opus 4.1擅长在大型代码库中精确定位修正点，且不会进行不必要的调整或引入错误，其团队更倾向在日常调试任务中使用这种精准性。

Windsurf报告显示，在其初级开发者基准测试中，Opus 4.1相比Opus 4实现了1个标准差的提升，性能跃升幅度相当于从Sonnet 3.7升级至Sonnet 4。

结语：大模型竞赛进入“智能体时代”

从基准测试结果可以看出，Anthropic这次推出的Claude Opus 4.1，主要在大模型的智能体相关能力上，例如智能体编程和智能体工具调用等方面，进行了升级侧重。

也从侧面反映出，如今的大模型开始朝着“给智能体提供更智能的大脑”的方向升级迭代，为智能体的进一步发展夯实地基。

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

5月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

5月前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

5月前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

5月前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

5月前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

5月前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

5月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

热门标签

R1 影目科技 AI内容创作淘宝首页 Hugging Face镜像市场需求回升哪款ai好用 Niji视频模型科技投入 Nexos.ai

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝