在最近的技术报告中,苹果公司提供了更多关于 iOS 26 新的苹果人工智能基础模型(Apple Intelligence Foundation Models)的性能和特性的详细信息,该模型是在最近的 2025 年全球开发者大会(WWDC)上宣布的。
苹果基础模型包括一个 3B 参数版本,优化后可在苹果 Silicon 设备上运行,另外,还有一个更大的模型,设计用来在苹果私有云计算平台上运行。苹果强调,这两个模型都是使用可信任的网络爬虫、授权语料库和合成数据进行训练的。进一步的训练阶段包括监管式微调和强化学习。
据苹果公司称,3B 参数模型旨在实现高效率、低延迟和最小化资源使用。相比之下,更大的模型旨在提供高准确性和可扩展性。苹果指出,鉴于其较小的规模,在设备上的模型不打算实现世界知识聊天,但可以支持高级功能,如文本提取、摘要、图像理解和仅用数行代码进行的推理。
在架构方面,3B 参数模型使用 KV 缓存共享,这是一种减少首次令牌时间(time-to-first-token)的技术,并通过 2 位量化感知训练(2-bit quantization-aware)进行压缩。苹果表示,模型被划分为两个块,它们之间共享键值缓存,这可以减少 37.5%的内存使用。量化感知训练是一种允许通过在训练时模拟 2 位量化的效果来恢复质量的技术:
与从权重 W 派生比例的传统量化方案不同,我们引入了一个可学习的缩放因子 f,它可以自适应地微调每个权重张量的量化范围。
对于服务器端模型,苹果使用了一种新颖的并行轨道混合专家(Parallel-Track Mixture-of-Experts,PT-MoE) transformer,结合了轨道并行性、稀疏计算和交叉的全局-局部注意力。它包括多个独立处理令牌的 transformer,每个都有自己的一套 MoE 层。苹果表示,并行令牌处理与 MoE 方法的结合可以减少同步开销,并允许模型更有效地扩展。
为了评估其基础模型,苹果研究人员依赖人类评分员来评估每个模型产生自然回应的能力。结果显示,设备上的模型在所有支持的语言中与相比 Qwen-2.5-3B 表现良好,并且在英语中与更大的模型如 Qwen-3-4B 和 Gemma-3-4B 相比,能够保持竞争力。更大的服务器端模型在与 Llama-4-Scout 相比中表现良好,但与更大的模型如 Qwen-3-235B 和 GPT-4o 相比则稍显不足。
对于图像理解,苹果采取了相同的方法,要求人类评估图像-问题对,包括文本丰富的图像,如信息图表:
我们发现苹果的设备模型在与更大的 InternVL 和 Qwen 相比时表现良好,能够与 Gemma 竞争,我们的服务器模型在推理 FLOPS 不到一半的情况下超越了 Qwen-2.5-VL,但落后于 Llama-4-Scout 和 GPT-4o。
最后,苹果研究人员强调了他们实现可信赖 AI 的方法,包括执行安全基线和护栏,以减轻有害模型输入和输出。这些保障措施也通过人类评估和自动评分的组合进行了评估。苹果还为开发者发布了应用负责任人工智能原则的教育资源。
如前所述,苹果的人工智能基础模型需要 XCode 26 和 iOS 26,目前已经作为测试版软件提供。
原文链接:
Apple Shares Details on Upcoming AI Foundation Models for iOS 26