AI热点 7小时前 104 阅读 0 评论

一家营收千亿美元的公司,如何回应AI落地的策略问题

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

2025 年 9 月 19 日,亚马逊云科技官宣:Qwen3 和 DeepSeek v3.1,首次上线 Amazon Bedrock ,正式对外提供服务,再一次引起了全球生成式 AI 市场对 Amazon Bedrock 这一产品的关注。

DeepSeek v3.1 部分测试成绩,图片来 DeepSeek 官方文档

Qwen3-235B 系列测试成绩,图片来自通义千问微信公众号

Amazon Bedrock 最早以“大模型货架”的形态出现在亚马逊云科技的客户面前,其核心理念是“Choice Matters”(选择大于一切),目标是为不同业务提供最契合的基础模型。所以,自产品发布起,主流模型会以最快的速度上架 Amazon Bedrock 供客户选用,且整体“供货”数量是市面竞品的两倍以上,达到二百余款。

“Choice Matters”理念的提出,源于一个对基础模型能力的判断:行业内不存在一个在所有场景中性能、性价比都为最优的通用模型。而回顾 2025 基础模型厂商不断变化的竞争态势,以及不同模型,针对不同地区服务政策的变化,让这一理念变得更富实际意义。

从这一点来看,亚马逊云科技一直以来坚持的 “Choice Matters” ,已经是个相对委婉的说法——如果在模型选择上不够灵活多样,企业正在推行的 AI 软件策略可能会陷入被动境地。

基础模型的“行业波动”,仍在进行中

2023 年,亚马逊云科技首次提出“Choice Matters” 理念,但彼时的行业尚未就此达成共识。逻辑上或许认可,但情感上多少有点将信将疑。因为有两个技术推论,模糊了当时的行业认知。

其一来自资本侧,普遍观点是:大模型训练成本高的吓人,万卡集群是入场券,闭源模型占据主导,开源模型数量有限,“百模大战”会收缩为几家巨头之间的竞争,选择本来就不多。

其二来自技术侧,认为从数据到架构,大语言模型的进化空间都不大。在数据层面,高质量的数据是有限的,没有足够的数据就无法制造新的“智能涌现”。在架构层面,Transformer 仍是“唯一解”,短期内看不到更优的替代方案。因此,关于大模型的“技术摸高”将在短期结束,模型厂商的研发重点,会从基础模型性能提升,转向服务垂直行业的解决方案。

这两个推论的影响力有多大呢?行业某知名投资人和云计算公司,都是第一个推论的拥趸。而像百川智能及其他几家知名公司,则对第二个推论深信不疑,过早放弃了对基础模型的技术探索,也间接错过了 AI Agent 的红利。

实际上,技术摸高,不是一个短期行为,大模型的技术发展曲线依旧足够陡峭,市场选择也足够丰富。围绕单一模型构建的 AI 能力,很有可能在被新的基础模型突破所折叠。这种情况常见于定制化的 To B AI 解决方案。

2025 年 1 月以前,基于开源模型能力,完成交付验收的定制化 AI 解决方案,几乎全部因为 DeepSeek 的发布,变得不合时宜。而后来交付的部分方案,在 Qwen3 、Kimi K2、DeepSeek v3.1 陆续发布后,又被再次丢进技术的“垃圾桶”——半年刷新三次,生动地解释了“单一模型解决方案”的巨大短板。

此外,在 2025 年,音视频模型的技术演进速度也在加快,AI 短剧成了“蓝海市场”,未来市场规模可能达到千亿级。那么对于大量新成立的工作室而言,如何构建何选择工具,也是核心问题。

毫无疑问,无论是对于企服行业、AI 短剧行业,亦或是正在推动 AI 落地业务的公司而言,能够应对行业波动的、灵活、多元化的 MaaS 基础设施,都是必须的。

而在坚持投入两年后,Amazon Bedrock 也几乎成了唯一答案。

抛开令人惊诧的模型数量和上新速度不谈,Amazon Bedrock 甚至已能为具体行业、具体场景提供差异化的模型选型建议。

比如,媒体广告行业可以选择 Marengo、Pagsus、Stable Diffusion;金融行业可以选择 Palmyra x5;重推理场景可以选择 DeepSeek - v3.1;文本摘要可以选择 Mixtral……比起用 DeepSeek 解决一切问题的技术方案,这让人放心得多。以 Palmyra x5 为例,其上下文窗口为 100 万 Token,比一般推理模型高出一个数量级,因此更适应财务报告和法律合同分析。

如果考虑到在 2025 年抵达高潮的中企出海趋势,“Choice Matters” 策略的重要性还在提升——毕竟在模型选型问题上,国内与海外完全是两套选型模板、两套采购清单。但无论哪种模型,大概率能在 Amazon Bedrock 的货架上找到。这也是近年来,亚马逊云科技实现营收快速增长的原因之一。

2024 年,亚马逊云科技全球营收突破千亿美元大关,“Choice Matters” 策略的成功实施功不可没。

灵活,是模型选型的核心关键 

Palmyra x5 的出现,某种程度上也映射了大模型的整体发展趋势:从单一走向多元化,从具备通识能力,演变为具备专业能力。当 Agentic AI 借助 MCP、A2A 协议开始调用不同智能体、模型完成精细化分工时, “Choice Matters” 策略也注定成为未来 Agent 平台的内生逻辑。

所谓专业能力与精细化分工,本质源于不同模型的设计思路和训练数据不同。

还是以 Palmyra x5 为例。要支持百万级 Token 上下文,是有代价的。首先上下文长度增加,可能会导致计算复杂度、内存占用出现平方级增长。而单纯增加上下文,并不意味着模型能有效利用所有信息。事实上,模型注意力会呈现“U 型分布”,即更容易关注到上下文开头和结尾的信息,而中间部分的信息容易被忽略,这被称为“中间迷失”现象。

对于 Palmyra x5 而言,消解“中间迷失”现象,势必成为技术团队的重点工作。

反过来看,本次新上线的 DeepSeek v3.1,并非刻意针对金融场景,而是更强调 Agent 能力,强调推理效率。对于 DeepSeek 过去半年多在行业的落地情况来看,维持满血版运行已经需要相当的算力成本,盲目增加上下文窗口实无比要。

对训练数据的选择也决定了模型在不同场景下的表现。

从已知情况来看,DeepSeek v3.1 新增的 840B Tokens,重点提升了代码和数学类的占比,以进一步提升逻辑推理和数学能力。

DeepSeek 称其为“迈向 Agentic AI 时代的第一步”,那么保守猜测,DeepSeek v3.1 可能也新增了相当比例的 Agentic 数据。

Agentic 数据是为训练 AI 智能体(AI Agent)而专门准备的数据,其核心在于包含行动轨迹、决策过程和环境交互信息。它超越了传统的纯文本对话数据,更注重智能体在完成任务时的多步动作、工具使用、决策逻辑(包括错误尝试和纠正)以及与环境(如 API、数据库)的互动。

Qwen 3 也很重视代码、数学、Agentic 数据,同时还特别强调了多语言能力——其中文训练数据仅占比 45%,在应用场景上支持 119 种语言。在成本方面,Qwen 3 的部署成本大幅下降, 4 张 H20 即可部署 Qwen 3 满血版,显存占用仅为性能相近模型的三分之一。

综合来看,如何才能保障 AI 成功落地业务,使 AI 在每个设计场景下都能达成最佳效果?很显然,要灵活选型,灵活调用。亚马逊云科技数据和 AI GTM 副总裁 Rahul Pathak 在博客中很好地总结了这一问题(基于原文翻译,略有编辑):

在考虑模型选择时,需要考虑三个关键点:

不同的用例需要不同的工具。不应该期望一种模型能够以最佳方式解决每个业务问题。

在模型之间进行实验和切换的能力不仅方便,而且是一种竞争优势。能够针对特定用例快速测试和部署不同模型的组织始终优于那些锁定在单一模型方法中的组织。

成本优化来自于将正确的模型与每项任务相匹配,既要防止过度设计,也要杜绝表现欠佳。

就第二点“竞争优势”而言, Amazon Bedrock 已经将其沉淀为了系统级能力。

Amazon Bedrock 为模型评估设置了两条核心路径:自动评估和人工评估。自动评估适用于客观指标,而人工评估则针对主观判断。后者还可以借用亚马逊云科技官方提供的人工评估团队。无论哪种方式,最终都会生成详细的评估报告,供决策参考。

Amazon Bedrock 同时提供了精选的公开数据集,涵盖问答、摘要等多种任务,也允许企业上传自己业务场景下的特定数据集,进一步提升了模型测试和选型能力的实际价值。

如果说 AI 确实在对部分传统工作进行替代,那么传统咨询公司在 2023 年部分主营业务——模型介绍、推荐与评估——已经被 Amazon Bedrock 完全替代了。好在,这也符合现代企业发展的自然规律:将人员能力,逐步沉淀为系统能力,最终反哺业务发展

如此来看,以 Amazon Bedrock 为典型呈现的“Choice Matters” 策略,也正对 AI 落地行业的整体进程,产生深远影响。

本文来自微信公众号 “InfoQ”(ID:infoqchina),作者:王一鹏,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!