AI热点 8月前 • 219 阅读 • 0 评论

DeepSeek V3.1 Base突袭！击败Claude 4编程爆表，全网在蹲R2和V4

作者头像

新智元

AI技术专栏作家 | 发布了 246 篇文章

HuggingFace

HuggingFace

0秒前

编辑：桃子定慧

【新智元导读】DeepSeek V3.1新版正式上线，上下文128k，编程实力碾压Claude 4 Opus，成本低至1美元。

就在昨晚，DeepSeek官方悄然上线了全新的V3.1版本，上下文长度拓展到128k。

本次开源的V3.1模型拥有685B参数，支持多种精度格式，从BF16到FP8。

综合公开信息和国内大咖karminski3的实测，V3.1此次更新亮点有：

编程能力：表现突出，根据社区使用Aider测试数据，V3.1在开源模型中霸榜。
性能突破：V3.1在Aider编程基准测试中取得71.6%高分，超越Claude Opus 4，同时推理和响应速度更快。
原生搜索：新增了原生「search token」的支持，这意味着搜索的支持更好。
架构创新：线上模型去除「R1」标识，分析称DeepSeek未来有望采用「混合架构」。
成本优势：每次完整编程任务仅需1.01美元，成本仅为专有系统的六十分之一。

值得一提的是，官方群中强调拓展至128K上下文，此前V3版本就已经支持。

对于这波更新，大家的热情可谓是相当高涨。

即便还未公布模型卡，DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

DeepSeek粉丝数已破8万

看到这里，网友们更期待R2的发布了！

混合推理，编程击败Claude 4

这次最明显的变化是，DeepSeek在官方APP和网页端上，把深度思考（R1）中的「R1」去掉了。

同时，与V3-base相比，DeepSeek V3.1新增了四个特殊Token：

<｜search▁begin｜> (id: 128796)
<｜search▁end｜> (id: 128797)
(id: 128798)
(id: 128799)

对此，有推测认为，这可能暗示推理模型与非推理模型的融合。

在编程方面，根据网友曝出的结果，DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分，一举击败了Claude 4 Opus、DeepSeek R1。

而且，它的成本仅1美元，成为非推理模型中的SOTA。

最鲜明的对比，V3.1编程性能比Claude 4高1%，成本要低68倍。

在SVGBench基准上，V3.1实力仅次于GPT-4.1-mini，远超DeepSeek R1的实力。

在MMLU多任务语言理解方面，DeepSeek V3.1毫不逊色于GPT-5。不过在，编程、研究生级基准问答、软件工程上，V3.1与之有一定的差距。

一位网友实测，模拟六边形中小球自由落体的物理测试，DeepSeek V3.1理解力明显提升。

一手实测

第一时间，我们对V3.1进行了实测，首先是此次模型更新的重点：上下文长度。

假设对于中文而言，1个token ≈ 1–1.3个汉字，那么这128K tokens ≈ 100,000–160,000汉字。

相当于整本《红楼梦》正文（约80–100万字）的1/6–1/8，或者一篇超长博士论文/大部头学术专著。

实际测试也很准确，DeepSeek告诉我们它只能阅读差不多9%，也就是大约十分之一。

由于总结内容太长，我们截取了前三回，你觉得这个总结的怎么样？

在128K上下文测试中，DeepSeek-V3.1输出速度相比以往获得较大提升，并且在工程上做了一些优化。

此次更新，DeepSeek重点强调了对上下文的支持。

整个活，给DeepSeek-V3.1上点压力，让它根据「梦」这个字，输出尽可能多的内容，尽量达到上下文极限。

不过最后，差不多只输出了3000字左右，模型就停止了输出。

再来看下推理能力。

经典的9.11和9.9比大小问题，两种询问方式都能正确做答。

这次更新的一大体感还是速度变快了很多。

最后再来看看编程能力。

DeepSeek的上一个模型是R1-0528，主打的是编程能力。

看看这次V3.1是否有更大的提升。

最终结果只能说，打个80分吧，基本要求都满足了，但是画面风格和颜色变换功能并没有完美实现。

并且和R1-0528的结果相比，两者之间还是有些差距的，但孰好孰坏还需看个人偏好。

以下是开启思考模式后的结果，你觉得哪个更好？

接下来，看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。

我们再来让V3.1画一个自己的SVG自画像，两种效果着实有些抽象。

上下滑动查看

参考资料：HYX

https://weibo.com/2169039837/Q0FC4lmeo

https://x.com/karminski3/status/1957928641884766314

https://github.com/johnbean393/SVGBench/

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

5月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

5月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

5月前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

5月前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

5月前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

5月前 • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

5月前 • AI热点

热门标签

Canva零基础教程 Chrome插件社交平台智能办公微观中小企业 AI助手Grok Spark-TTS 华硕灵耀 CodeBuddyIDE

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝