趋势洞察 1天前 125 阅读 0 评论

AI 竞赛下半场:为什么说“超级工厂”是最优解?

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

2025 年的夏天,巨头们对 AI 的热情因 Agent 异军突起而再添一把火。


巨头们在尽情发挥“钞能力”,其中一项就是砸钱堆算力。7 月 23 日,马斯克宣布 xAI 计划在 5 年内上线等效于 5000 万块英伟达 H100 Tensor Core GPU 的算力;萨姆・奥尔特曼也曾提到过 1 亿块 GPU 的技术愿景。


这背后折射的行业共同困境是,模型训练、推理以及规模化落地应用,每一项都在提出新的算力需求,算力市场仍是供不应求。


具体来看,在训练侧,当 Scaling Law 带来的收益逐渐减弱,模型每增大 10 倍,算力需求可能增大 30~50 倍,而性能提升却不足 2 倍。为了摊薄这 30~50 倍的算力成本,训练集群必须保持更高的利用率,并且能按需扩 / 缩容。自建 IDC 除非全年满负荷,否则利用率波动会把边际成本推高至不可承受,而公有云通过资源池化和弹性计费天然满足这一条件,因此成为大多数企业的理性选择。


或许对于日均千卡以上、全年持续训练的超大规模企业(如头部互联网厂、国家实验室),“自建数据中心 + 弹性混合云部署”可在 TCO 上与公有云打平,甚至略优。但这类玩家终究只是寥寥数家,对绝大多数 AI 创业公司而言,公有云仍是唯一能在数月内上线千卡集群的路径。


在推理侧,“每千 Token 的净利”已经成为决定商业模式可行性的关键因素。因此,这场竞赛的核心,不再只是模型跑分高低,而是单位经济效益,即每个 Token 能带来多少价值,又消耗了多少成本,这背后涉及到一整套系统级的优化。


当模型落地到真实的应用场景时,基础模型的同质化,让竞争焦点迅速转移到“后训练”阶段。如何利用强化学习(RLHF)、模型微调(Fine-tuning)等手段,让模型更懂特定行业、特定场景,成为创造差异化价值的关键。


这些变化意味着,价值创造不再依赖于一个“万能模型”,而是需要将“数据 - 算力 - 场景”三个轮子同时转动,形成快速迭代的小闭环。


因此,无论是美图的 AI 绘画,还是金融行业的风控模型,都需要将行业 Know-How 深度融入 AI 的生产流程。单点技术的突破已不足够,世界需要的是一条能将数据、训练、微调、推理和应用无缝衔接的工业流水线。


这条流水线,就是“AI 超级工厂”。


<!---->

阿里云张北数据中心


新华社最近把镜头对准阿里云张北数据中心,给出了一个直白的注脚:云计算,就是今天 AI 的“超级工厂”。为什么新华社将云计算定义为 AI 时代的“超级工厂”?新华社探访阿里云,又在向行业传递哪些信号?

打造 AI 超级工厂,云厂商天赋异禀


“超级工厂”一词,最先由特斯拉带入公众视野,它代表了现代制造业的巅峰:极致的规模、先进的自动化工艺、高度柔性的生产线、智能化的中央管理系统,以及与全球供应链的深度协同。


将这个概念平移到 AI 领域,一个合格的“AI 超级工厂”也必须具备类似的特质。巧合的是,这些特质与云计算的底层逻辑十分契合。


首先是极致的规模化。


物理世界的超级工厂受限于土地和空间,而云上的 AI 超级工厂,其规模是虚拟和弹性的。云计算通过“资源池化”技术,将全球数百万台服务器的计算、存储、网络资源整合成一个看似无穷大的资源池。


<!---->

阿里云仁和数据中心机房


当一个 AI 训练任务需要从一千张卡扩展到一万张卡时,云可以跨越多个数据中心(可用区),在几分钟内调度所需资源,这是任何单一企业自建 IDC 都难以企及的规模和弹性。


超级工厂的先进性还体现在其生产工艺上,例如一体化压铸和自动化机器人。云的“先进工艺”则体现在软硬件的协同设计上。


云厂商深入到芯片、服务器、网络、数据中心制冷(如液冷整机柜)等硬件层面进行定制和优化,再通过自研的虚拟化、操作系统和调度软件,将硬件性能压榨到极致。这种从硬件到软件的全栈控制,使得云平台能像升级软件一样,不断为上层 AI 应用提供更优的“制程”。


<!---->

阿里云仁和数据中心液冷机房


除自动化工艺外,现代制造还追求柔性生产,能快速切换产线以适应不同产品需求。云计算的“柔性”则通过 Serverless(无服务器计算)、容器化和模型即服务(MaaS)等技术实现。今天产线跑的是 70 亿参数的开源模型微调,明天就可以无缝切换到千亿参数的多模态模型推理。开发者无需关心底层 GPU 型号和服务器配置,只需通过 API 调用,按需、按量使用算力。


在整套生产流程底层,还需要有一套系统,担任超级工厂的“大脑”,对各条生产线进行智能管理,实现故障预测和能耗优化。在这一环节,制造业的超级工厂依赖复杂的 MES(制造执行系统),而 AI 超级工厂的“大脑”,则是云原生技术栈。


以 Kubernetes 为核心的容器编排系统,配合 AIOps(智能运维),能够自动化地进行资源调度、故障自愈和负载均衡,确保数万个 AI 任务高效、稳定地运行。它能预测硬件故障,智能调度任务以避开峰值电价,实现整体拥有成本(TCO)的最优化。


<!---->

阿里云张北数据中心


最后,决定一家超级工厂产能“天花板”的因素,是生态链接的能力。没有一个超级工厂是孤立的,它需要深度嵌入全球产业链。AI 超级工厂同样如此。


云计算平台则天然是一个生态中心。它通过开源模型社区(如 Hugging Face、魔搭社区)、MaaS 模型市场、行业解决方案模板等形式,汇聚了全球的开发者、数据提供商和行业专家。企业可以在这个生态中,快速找到适合自己的基础模型、工具和合作伙伴,大大缩短了从想法到产品的距离。


至此,我们已抽象出“AI 超级工厂”的必备特征。接下来,借助新华社的镜头,我们可以剖析阿里云 2025 最新“AI 产线”作为实例验证,看这些特征如何落地。

阿里云起了个好头


AI 的原料是数据。一个现代 AI 工厂,首先需要一个能容纳海量、多模态数据的“原料仓”。


阿里云的对象存储 OSS,可以作为 PB 级的数据湖底座,存储来自互联网的文本、图片和视频数据;面对数据合规和版权缺口,其人工智能平台 PAI(Platform for AI)中的 Data-Juicer 等工具,还能高效处理和生成高质量的合成数据,为模型提供源源不断的“燃料”。


模型训练开始后,就要求企业能够高效调动大规模算力集群。阿里云通过自研的 HPN 高速网络和 PAI-DLC(分布式训练服务),已经可以支持万卡级别的单任务训练,实现接近线性的加速比。


<!---->

阿里云张北数据中心


更关键的是容错能力。训练大模型往往持续数周,任何硬件故障都可能带来回滚损失。阿里云通过抢占式实例(Spot)与弹性调度、秒级快照(EasyCKPT)、AIMaster 自愈机制,可在节点故障后分钟级恢复,将训练回滚控制在秒级,支撑千卡 / 万卡任务长期稳定运行。


对于场景方来说,基础大模型只是“毛坯房”。若企业拥有敏感行业数据或必须私有化部署,可把后训练工具链(如 LoRA、RLHF 框架)搬到私有环境;若数据可上云、且希望快速迭代,则可直接调用阿里云的 PAI-ChatLearn、PAI-Designer 等托管服务,降低对齐与微调门槛。


至此,距离模型真正落地可用只差临门一脚。


模型上线前,还经过严格的“质检”和“精加工”,即推理优化。阿里云则先用 PAI-Blade 将模型图融合、算子剪枝并量化到 INT4,在几乎不损精度的情况下把延迟压到最低;而后由 PAI-EAS 以 Serverless GPU 形式毫秒级弹性伸缩,像双 11 流量洪峰也能秒级扩容、按需计费;最后借 KV Cache 与 Group Query Attention 等全链路加速,把吞吐再提一档,把大模型打磨成可直接上线的高性能成品。


最后,训练好的模型需要一个 “成品仓库”和高效的“物流体系”,将其运送到各行各业的业务场景中。


阿里云的 ModelScope(魔搭社区)则扮演了 MaaS 市场的角色,汇聚了数千个开源和自研模型,开发者可以一键部署。而其“百炼”平台则更进一步,提供了面向“法律合同审查”“医疗影像报告”等垂直场景的行业模板,让企业 30 分钟就能上线一个可用的 AI 应用。


在这个过程中,阿里云遍布全球 29 个地域、89 个可用区的数据中心网络,确保了模型可以被快速分发到离用户最近的地方,实现毫秒级的低延迟响应。


<!---->

俯瞰阿里云张北数据中心机楼


看完阿里云的实践,我们或许可以回答前文提出的问题:为什么说云计算是 AI 的“超级工厂”?


因为它提供的不只是算力,而是一整套工业化的 AI 生产体系:从海量数据的处理,到弹性稳定的训练,再到标准化的运维和灵活的交付。云计算把 AI 研发从一项少数人才能玩的“炼金术”,变成了可度量、可管理、可规模化的“现代工业”。


未来的 AI 竞争,很大程度上就是背后“超级工厂”能力的竞争。新华社的镜头为公众提供了一个观察窗口,而阿里云之所以成为首批被探访对象,既因其全栈自研的技术布局,也与国家“东数西算”战略节点落地有关。报道虽并不构成技术排名,但确实验证了公有云作为 AI 基础设施的社会共识正在形成。


随着算力需求不断增长且越发多样,AI 超级工厂亦在各个环节持续优化迭代。当千行百业、千家万户像使用水电煤一样使用 AI 能力,一个由 AI 驱动的新工业时代便真正到来。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!