技术解读 1天前 152 阅读 0 评论

一家见过“大世面”的存储公司,如何理解 AI Infra?

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

写在前面:


在中国,有千卡集群构建经验的企业不少,参与构建过万卡集群的企业则寥寥无几。

此处讨论的不单是算力,也包括网络、存储等关键模块。在大模型时代,我们一直在算经济账,虽然务实,但不太过瘾。

这是为什么在 WAIC 2025 ,我和 DDN 售前技术总监李凡聊的特别开心——时间不长,但启发很多。作为 AI 存储领域的头部玩家,DDN 是英伟达生态的重要伙伴,也参与了马斯克 xAI 10 万卡、20 万卡集群的建设(存储部分)。如果 AI Infra 是一幕时代大剧,那么 DDN 一定是主演名单里排名靠前的一位。

DDN 对 AI Infra 的投资节奏、AI 存储的本质特征有着独到的理解,我将核心内容整理如下,以飨读者。

 

InfoQ:很多国内朋友不真正了解 DDN,能否帮我们明确下 DDN 的定位,介绍下 DDN 的来历?

李凡:DDN 公司的历史可追溯至 1998 年在硅谷成立,至今已逾二十多年。公司早期专注于高性能计算(HPC)领域,为“超级计算机”提供存储系统。传统超算是将多个 CPU 组合而成,而如今的 AI 集群本质上是将多个 GPU 组合形成的更大规模 AI 超级计算机,DDN 也为成为其提供 AI 存储系统。DDN 已经在全球拥有超过 11,000 家客户和 1500 名员工,其中中国区员工接近 100 人,半数以上为研发人员。我们在北京和上海各设有一个研发中心。尽管其他外资企业近年来在裁员,我们却在持续招聘,满足不断增长的业务需求。

 

InfoQ:我们看到 DDN 和英伟达的两位 CEO 经常同台出现,您会怎么形容这两家公司的关系?

李凡:两家公司自 2016 年起建立了深度合作关系,涵盖技术、产品解决方案和市场层面。英伟达既是我们的客户,也是深度合作伙伴。

 

InfoQ:是否可以称 DDN 为英伟达在 AI 存储领域最大的合作伙伴?

李凡:我们认为在合作规模和优先级上,DDN 位居前列。

 

InfoQ:DDN 在全球 AI 存储的增长情况如何?方便透露吗?

李凡:在 2024 年营业额同比增长四倍,2025 年我们获得黑石集团 3 亿美元投资,估值达 50 亿美元。

 

InfoQ:现在大家都舍得给 GPU 花钱,但对存储的投资往往比较含糊。您怎么帮客户算这笔账?

李凡:许多客户的 GPU 利用率较低,甚至每月闲置时间可达 15 天,这并非算力不足,而是忽略了对 GPU 配合的高效 AI 存储的投资导致数据传输延迟所致。DDN 存储解决方案可将 GPU 等待时间从 30% 降低至 5%,相当于额外获得 25% 的 GPU 资源,从而每年节省大量成本。

 

InfoQ:那么如果要投资 AI 存储,客户怎么把握投入节奏?

李凡:建议优先选择合适的产品,提高效率的产品,而非过度采购容量。我们曾为一家国内客户提供咨询,原计划采购 50 PB 存储,我们建议先部署 20 PB,高效和可以实现无缝升级产品,这样在需要时再进行扩展。主要原因目前 AI 行业变化迅速,第二年硬件可能升级,单 PB 价格将进一步下降。今年节省的预算可用于明年更换全闪存系统,实现性能翻倍。DDN 的 AI 存储架构支持横向扩展,在线添加节点而不中断业务;明年硬件降价时再扩展,旧设备可通过回收、转租或重组处理,避免资产闲置。

 

InfoQ:那 AI 存储和传统存储到底差在哪?

李凡:传统存储的核心是确保数据存储容量,极少关注数据流动,而 AI 存储除了数据容量外还要强调“计算速度”。模型训练需处理 PB 级数据在 GPU 间的传输,数据传输慢,任何延迟均会导致 GPU 空转。还有 AI 应用出现了需要大量数据流动的复杂的“温数据”层,例如自动驾驶单车一小时产生 4 GB 原始数据,需要回传、标注、训练并通过 OTA 更新,形成闭环。且这些数据已经无法全部置于冷存储中,需要再“温数据层”再训练。

 

InfoQ:在这种变化中,DDN 胜出的原因是什么?

李凡:我认为主要有两个因素。首先,以 DDN 为例,我们源于 HPC 背景,在 AI 时代定位更为精准,即专注于服务 AI 应用的存储系统,DDN 推出面向 AI 应用的好的产品。其次是服务和工程能力。我们的售前团队具备技术专长,售后团队相当于客户的辅助运维工程师,提供 24 小时运维支持,帮助排查问题。当然,优质产品是这一切的基础。

 

InfoQ:7x24 小时运维协助,听起来不像外企的风格?

李凡:从 AI 存储角度看这是一个最基本的产品服务要求,现在在海外的数据中心相关业务,基本也都是按照这样的标准在施行了。

 

InfoQ:AI 存储这一赛道,是否存在准入门槛?

李凡:该赛道准入门槛较高,主要体现在产品投入和优化方面

 

InfoQ:如何去量化判断这一门槛?

李凡:例如,我们协助 xAI 在 122 天内完成 10 万卡集群建设,工程难度极大。该领域项目资金投入往往达数十亿或上百亿美元,客户要求供应商具备丰富经验,避免实验性风险。

 

InfoQ:我们年初发布了 Infinia 2.0 ,半年后再回看,有解决客户的问题吗?

李凡:是的,Infinia 2.0 主要针对训练和推理两种 AI 业务类型。训练阶段需高带宽,推理阶段需低延迟。该产品将对象存储延迟降至毫秒级,并支持后训练数据的实时回流。客户实测显示,推理查询时间从 200 ms 降至 50 ms,提升了线上体验。

 

InfoQ:除了产品本身的更新,GMI Cloud 的基础架构能力与 DDN 的存储解决方案也完成了整合,这种整合的技术价值是什么,效果如何?

李凡:无论与英伟达还是 GMI Cloud 的合作,本质上是提供端到端解决方案。GMI Cloud 的客户分布于亚太、北美等地,拥有全球 GPU 云资源。我们结合高速存储,形成可租赁的超级计算机。客户无需自建机房,并按小时付费。我们共同为客户提供“算力+存储+网络”的一体化解决方案和全球服务能力。

 

InfoQ:最后一个问题,站在 2025 年,哪些场景最值得您兴奋?

李凡:三个方向值得关注。首先是具身智能 Embodied AI,机器人需同时处理视觉、语音和力控数据,数据量较自动驾驶增大一个量级。其次是 AI+制造,例如特斯拉的汽车和机器人生产,本质上是数据驱动的制造过程。第三是 AI+医药,例如罗氏制药使用我们的存储进行分子动力学模拟,两周内完成过去半年的工作。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!