AI热点 2小时前 151 阅读 0 评论

蚂蚁集团发布万亿参数旗舰模型 Ling-1T 并开源,多项指标位居开源模型榜首

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 10 月 9 日消息,今日,蚂蚁集团发布万亿参数的通用语言模型 Ling-1T。Ling-1T 是蚂蚁百灵大模型 Ling 2.0 系列的第一款旗舰模型,也是蚂蚁百灵团队迄今为止推出的规模最大、能力最强的非思考大模型。

测评显示,在有限输出 Token 条件下,Ling-1T 于多项复杂推理基准中取得 SOTA 表现,展示出在高效思考与精确推理之间的卓越平衡。另外,在代码生成、软件开发、竞赛数学、专业数学、逻辑推理等多项高难度基准测试上,Ling-1T 均取得领先成绩,多项指标位居开源模型的榜首。

以竞赛数学榜单 AIME 25 (American Invitation Math Examination 25)为例,Ling-1T 以平均 4000+ Token 的消耗达到了 70.42% 的准确率,优于 Gemini-2.5-Pro(平均 5000+ Token,准确率 70.10%)。Ling-1T 用更少的 Token 实现了更高的准确率,展现出在推理精度和思考效率综合能力上的优势。

据蚂蚁百灵团队透露,Ling-1T 沿用 Ling 2.0 架构,在 20T+tokens 高质量、高推理浓度的语料上完成预训练,支持最高 128K 上下文窗口,通过“中训练 + 后训练”的演进式思维链(Evo-CoT)极大提升模型高效思考和精准推理能力。

蚂蚁百灵团队还透露,在万亿级旗舰模型的研发过程中,多次观察到:扩大模型规模与强化推理能力,往往会带来出乎意料的跨领域泛化表现。例如,在智能体工具调用任务 BFCL V3 上,Ling-1T 虽未在中训练阶段引入大量操作轨迹,仅通过少量指令微调,即可达到约 70% 的调用准确率,展现出卓越的推理迁移与泛化能力。Ling-1T 能精准理解复杂自然语言指令,自主完成综合性任务:将模糊的逻辑问题转化为功能完备的可视化组件,为多端环境生成高兼容性前端代码,或根据指定风格与语气创作营销文案、文学续篇及多语种文本。团队认为,这些能力构成了通用智能体的关键基础。

蚂蚁百灵团队称,尽管 Ling-1T 在高效推理、跨领域泛化与训练效率方面取得显著进展,但仍存在以下局限:

  • attention 架构仍基于 GQA

在超长上下文和复杂推理任务中表现稳定,但推理成本偏高。后续将引入混合注意力架构,以提升训练推理效率、降低算力开销。

  • 智能体能力仍需强化

当前版本在多轮交互、长期记忆和复杂工具使用等方面仍有限,近期将持续提升工具理解与使用能力,增强模型的主动性与泛化能力。

  • 指令遵循与身份认知问题

部分场景下仍可能出现指令执行偏差或角色混淆。后续将通过强化式身份对齐与安全微调改进模型一致性。

未来版本将继续在架构、推理与对齐层面迭代,推动 Ling 系列迈向更高水平的通用智能。

IT之家附开源仓库和体验页面:

HuggingFace:https://huggingface.co/inclusionAI/Ling-1T

ModelScope:https://modelscope.cn/models/inclusionAI/Ling-1T

GitHub:https://github.com/inclusionAI/Ling-V2

Ling chat(国内用户):https://ling.tbox.cn/chat

ZenMux(海外开发者,提供 Chat 测试与 API 等能力):https://zenmux.ai/inclusionai/ling-1t

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!