AI热点 3小时前 107 阅读 0 评论

时隔 9 年,黄仁勋再次给马斯克送货上门,跳票大半年的 AI 个人超算终于来了

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章


今天星舰第十一飞圆满收官,没想到黄仁勋也闪现到了现场。


原来,黄仁勋亲自飞到了德州的星际基地(Starbase),在冲天的星舰旁边,就是为了把一台刚出炉的新「核弹」交到了马斯克手上。


这就是大家从年初等到现在的——


NVIDIA DGX Spark 个人 AI 超级计算机 。



而这一幕,让所有老科技迷瞬间 DNA 动了,梦回 2016 年。


当时,马斯克还是 OpenAI 的联合创始人,没和奥特曼闹掰,老黄亲自把全球第一台 DGX-1 超级计算机送到了他们初创公司的办公室。



黄仁勋当时开玩笑地说:


如果这是唯一一个出货的产品,那这个项目造价就高达 20 亿美元了。


那台「20 亿美金的大家伙」后来开启了整个大模型时代。


第二年 Google 就公布了一种新的神经网络训练架构 Transformer。


这次的新突破再被 Sutskever 抓住,引领 OpenAI 建造出来第一个 GPT 模型,一切都建立于英伟达的超级计算机上。


9 年过去了,马斯克成了全球首富常客,黄仁勋掌管着一度全球市值第一的公司。


而英伟达交付这次交付的 DGX,不再是一个庞然大物,而是一台能放在你桌边的「性能怪兽」。又一次在用最酷的方式宣告:一个属于每个人的 AI 超算时代,从这里开始了。



剧透一下,APPSO 的 DGX Spark 也在路上了,后续给大家带来更多体验细节,敬请期待。


说实话,这台 DGX Spark 能顺利交到老马手上,真挺不容易的。


从今年 1 月在 CES 上以「Project Digits」之名惊艳亮相,英伟达接连错过了原定的 5 月和夏季发布日期,一直没有出货 。这大半年的等待,让不少人心里直打鼓,不少开发者甚至觉得可能要彻底跳票了 。


虽然官方三缄其口,但行业里的猜测都指向了其核心——Grace Blackwell GB10 芯片 。这个芯片是「合体金刚」,Blackwell GPU 部分(就是我们熟悉的 5090 显卡同款架构)早就准备好了,但与联发科(MediaTek)共同开发的 Grace CPU 部分,却在生产上迟迟没能跟上,拖了整个项目的后腿 。


「万事俱备,只欠 CPU」的故事,没想到会发生在了英伟达身上。


那么,在 M3 Ultra Mac Studio 等竞品凭借高内存带宽抢占眼球的时候,这台姗姗来迟、还比最初传闻贵了 1000 美元的 DGX Spark 还值得我们等待吗?


答案是:绝对值得! 因为它玩的路子,特立独行且直击痛点。


等了大半年,DGX Spark 到底「香」在哪?APPSO 带你回顾一下。



整台机器的灵魂,是Grace Blackwell GB10 超级芯片。


它将一颗 20 核的 ARM 架构 Grace CPU 和一颗强大的 Blackwell GPU 封装在一起,构成了一颗超级芯片 。


它能提供高达 1 Petaflop(千万亿次)的 AI 计算性能,让你在桌面上就能体验到数据中心级别的澎湃动力 。


而 DGX Spark 还有一个杀手锏。是 CPU 和 GPU 通过 NVIDIA NVLink™-C2C 技术无缝连接,共享一个巨大的 128 GB 统一内存池 。


这个连接技术的带宽是传统第五代 PCIe 的整整 5 倍,确保了数据在 CPU 和 GPU 之间几乎没有延迟地高速流转 。


虽然它的内存带宽(273 GB/s)在纸面上远不如 Mac Studio M3 Ultra(819 GB/s),但英伟达的思路是「大力出奇迹」。



在 AI 任务中,尤其是跑大模型时,能一次性把整个模型装进内存的巨大容量,其战略价值远超单纯的带宽数字。这意味着你可以直接在自己桌上,流畅运行一个高达 2000 亿参数的超大语言模型,而无需进行复杂的模型切分 。这种体验,别无他用。


Blackwell GPU 配备了第五代张量核心(Tensor Cores),并支持 FP4/FP8 这样的超低精度格式,性能相比上一代 FP8 提升了 5 倍 。


这就像给 AI 计算开了一个「涡轮增压」模式,让推理速度暴增,同时能效比堪称惊艳。


单台不够?DGX Spark 还内置了 NVIDIA ConnectX®-7 200 Gb/s 网络接口 。你可以轻松地将两台设备连接起来,组成一个拥有 256 GB 共享内存的微型集群 。


英伟达表示,


这样的组合足以处理高达 4000 亿参数的巨型模型,这已经超出了个人开发者能够想象的极限。


抛开硬件,别忘了英伟达最硬的护城河——软件生态。DGX Spark 预装了完整的 NVIDIA AI 软件栈,包括 CUDA 库、TensorRT 和各种 NVIDIA NIM™ 微服务,所有东西都集成在定制的 DGXOS(基于 Ubuntu)上为你调校好了 。


这意味着你不用再花时间折腾兼容性,开箱就能直接进入战斗状态,这对于开发者而言,时间成本的节省难以估量。


这场在星舰基地上演的「世纪交接」,只是一个开始。



从 10 月 15 日起,DGX Spark 将通过英伟达官网和全球合作伙伴正式发售,价格为 3999 美元 。宏碁、华硕、戴尔、联想等几乎所有 PC 巨头都已第一时间跟进。


说实话,这个价格比最初承诺的 3000 美元贵了 1000 刀 ,也和顶配的 Mac Studio M3 Ultra 差不多了。但它们的定位完全不同:DGX Spark 预装的是 DGXOS(基于 Ubuntu),不能装 Windows 或 macOS ,它就是一台纯粹的、为 AI 开发者和硬核玩家准备的「战斗机器」。


它的魅力在于,你花 4000 美元,买到的是一个能在本地驯服 2000 亿参数大模型的超能力 ,以及背后整个 CUDA 生态的全力支持对于那些需要在本地处理敏感数据、追求极致性能、或者想要完全掌控自己 AI 工作流的专业人士来说,这个价格其实相当有竞争力。


对于这样一台优缺点都极其鲜明的「偏科生」,你还想要了解什么细节,也欢迎在留言区告诉我们。


文章来自于微信公众号 “APPSO”,作者 “APPSO”

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!