导读 在电商行业竞争日益激烈的今天,内容已成为连接商家与消费者的核心纽带。然而,面对站内站外的全域流量争夺、商家内容生产能力的不足,以及消费者对个性化、高质量内容需求的持续升级,传统的内容生产方式已难以满足高效、多元化的业务需求。AI 技术的快速发展为这一挑战提供了全新的解决方案。本次分享将深入探讨 AI Agent 在电商内容场景中的演进与应用,从 1.0 时代的文本工业化生产,到 2.0 时代的多模态内容生成,再到 3.0 时代的内容质量优化与智能决策,揭示 AI 如何逐步推动电商内容从“有”到“优”的跨越,助力商家降本增效,提升用户体验与转化效率。
1. 业务背景
2. 整体架构
3. 1.0 时代落地挑战与解决思路
4. 2.0 时代落地挑战与解决思路
5. 3.0 时代落地挑战与解决思路
6. 总结&未来规划
7. Q&A
分享嘉宾|李明玉 淘天集团 算法专家
编辑整理|孟立诗
内容校对|李瑶
出品社区|DataFun
01
业务背景
1. 业务定位

淘工厂作为淘宝产业带白牌商品的核心阵地,采用 M2C 经营模式,直接连接产业带的源头工厂与消费者。
在商家端:我们通过半托管模式满足工厂的数字化需求,降低中小商家的数字化经营门槛。
在用户侧:我们依托严格的比价与品控标准,为用户提供优质源头商品,保障良好的购物体验。
2. 电商内容生成挑战

当前电商行业竞争持续升级,内容形式已从传统货架电商的图文详情页展示,发展为种草、图文、短视频、直播等多元化形态。
作为连接工厂与消费者的重要桥梁,商品内容也面临着诸多挑战:
流量竞争加剧:内容从站内到站外的全域布局
在当前的电商生态中,流量的竞争早已突破单一平台的边界。淘工厂作为一家依托淘宝平台的店铺,不仅需要在站内获取流量,还需通过站外渠道实现全域流量触达,这对白牌商家的内容生产能力提出了更高要求。
商家侧的内容生产存在明显痛点:从内容生成提效到商品效率提升
淘工厂的商家以中小企业型为主,他们往往普遍缺乏专业运营团队和内容生产能力。传统手工内容生产方式虽然可以满足部分需求,但是面对需要高频上新,需要覆盖图文短视频等多种内容形态的要求时,由于缺乏精细化内容生产经验而显得力不从心。
消费者的内容需求持续升级:从信息获取到购买决策
消费者已不再满足于基础商品信息展示,而是追求更丰富、生动、可信的内容体验。他们注重真实性和可信度,更信赖用户评价与测评;视觉吸引力也成为关键,优质图片和短视频直接影响购买欲望;同时,个性化推荐需求增加,定制化内容能显著提升转化率。

针对当前场景,我们算法团队在构建 AI 内容生产 Agent 的过程中经历了三个阶段演进:
1.0 阶段
运用 NLP 多模态理解技术,重点提升文本内容的大规模生产效率。通过引入 AI 文案 Agent,实现单日万级别不同类型文案的生产能力,并保持较高审核通过率,成功支撑运营团队管理数十个、多平台的人设账号。
2.0 阶段
从文本扩展到图片和视频内容生产,核心解决商品图片/视频的生产成本高、同质化等问题。通过构建 AI 创意工厂,支持 AI 模特图、商品图及图像编辑等功能,显著降低商家制图成本,提升淘工厂商品发布时效。
3.0 阶段
目标升级为提升内容质量,构建了内容理解与诊断 Agent。通过掌握品类间细粒度运营经验,实现从优质内容生产到投放优化的端到端闭环。在此托管式内容生产 Agent 模式下,内容点击率提升超过 10%。
02
整体架构

在上面图中是我们的技术整体架构框架,采用五层设计:
数据层:包含商品多模态信息、用户行为日志,以及竞品和商品相关指标数据。
基础大模型:包含了很多算法能力,集成文本/图像/视频生成模型、商品主体分割、要素检测识别等多模态理解模型。
知识注入:通过 SFT、LoRA 等训练方法,结合强化学习和对比学习,将多模态电商知识注入基础大模型。
任务编排部署:负责任务调度与流程编排。
业务场景应用:面向不同业务场景的具体应用实现。
后面我会从 1.0 时代开始详细介绍我们的一些技术实现细节和迭代演进过程。
03
1.0 时代落地挑战与解决思路
1. 文本内容工业化生产——应用场景

在 1.0 阶段,我们主要聚焦于文本内容的工业化生产,应用于以下三个场景:
站外引流:在“什么值得买”电商社区平台自动发布一些好物爆料和测评文章,帮助工程进行流量的拓展;然后通过内容引导用户跳转至淘工厂下单,提升商品曝光和 GMV。
小红书垂类账号孵化:运营数十个账号矩阵,覆盖不同目标人群,吸引不同的人群关注;然后通过内容安利引导用户关注店铺,扩大淘工厂在小红书平台的影响力。
淘宝逛逛视频文案:为平台视频内容生成配套文案素材。
2. 文本内容工业化生产——落地挑战

在落地过程中,我们遇到了一些挑战:
挑战 1:平台差异化适配
生产的文本内容要分发到不同的内容平台、不同的社区,平台的人群画像差异是较大的,他们对内容的需求是不同的。所以,针对不同平台对不同内容的需求,需要我们额外的定制化。
例如“什么值得买”是以男性为主的平台,让用户更关注商品的一些真实的性价比和详细参数。
例如“小红书”是以女性为主的平台,倾向于生活化、情感共鸣的表达方式。
挑战 2:模型可靠性挑战
模型可能会出现幻觉。例如在生成商品测评类的文章的时候,需要保持商品的属性,这是非常至关重要,那么模型幻觉会破坏我们抽取商品属性。
挑战 3:多模态一致性挑战
不同模态之间的内容一致性问题,需要我们通过模型保证,这对模型的多模态理解与生成能力提出了更高要求。
3. 文本内容工业化生产-解决思路

针对不同平台人群画像和内容需求的差异:
我们构建了一个知识库解决方案。该知识库包含各平台的核心人群特征、内容结构以及高频关键词,用以规范内容生产。同时,我们建立了用户反馈机制,通过实时获取点赞、转发、评论等互动数据,评估内容效果并持续优化,形成闭环反馈。
针对模型幻觉问题:
我们主要采取知识增强和后处理两种措施。在知识增强方面,我们预先抽取商品真实属性,提前抽取出来喂给模型,并采用PE和规则引擎对生成文案进行强约束,确保属性识别的准确性。此外,在生产流程中引入后处理校验环节,通过比对生成文本与商品属性的关联度,有效防止模型幻觉的产生。

此外,在跨平台文案生产过程中,我们构建了一个专门的文案生产平台。该平台支持运营和产品人员根据具体需求,选择不同场景、账号类型、人设定位以及内容案例等维度进行定制化设置。基于这些参数,我们的文案生成 Agent 会提供完整的解决方案,并自动推荐适配的文案供用户筛选。
4. 技术方案

经过 1.0 阶段的文本内容生产 Agent 实践,我们验证了 AI 技术对运营效率的提升效果。传统模式下需要 4-5 名运营人员专职撰写文案,而采用 AI 生产方式后,仅需 1 名人员配合即可实现日均数万篇内容的生产能力,能够同时支撑数十个账号的运营需求。
04
2.0 时代落地挑战与解决思路
1. 多模态内容生产——落地挑战

随着业务发展,我们的需求已从单一文本生成扩展到图片、视频等多模态内容生产,由此进入 2.0 阶段。这个阶段重点解决多模态内容生产问题,包括图片和视频内容生成,并针对图片生产成本高、同质化等问题提出了解决方案。
在落地过程中,我们以“AI 创意工厂”产品为核心开展算法技术建设,在实施过程中我们遇到了一些困难:
AI 生产图片真实度问题:生成图片的真实感不足的话,会引发用户反感,这是我们首要解决的关键问题;
跨品类泛化困难:我们发现现有生图模型在跨品类泛化方面仍存在较大局限,主要受限于模型表达能力不足,难以准确捕捉不同品类的复杂特征差异。例如服饰类目需要模特试穿场景,而家居类目更适合温馨的摆放场景,使用单一模型难以同时适配所有品类的场景需求。
商品主体细节更改:当前生图技术(包括文生图和图生图)存在商品主体细节失真的问题,容易导致货不对版并引发客诉。我们需从根本上确保商品主体特征严格保持一致。
商品图区域编辑的问题:商家和运营人员不仅需要图片重构功能,还提出了区域编辑的需求,包括局部擦除、内容修改以及尺寸适配等多样化操作,这些都需要在解决方案中予以满足。
2. 多模态内容生产——解决思路

面对上面在实际中遇到的挑战,我们的解决思路:
针对图片真实度问题:收集各品类高质量商品图数据用于 SD 模型微调,同时将理解内容作为约束条件注入生成模型,并通过训练专用的细节增强 LoRA 模块来提升图片生成的真实度。
针对跨品类泛化难题:从技术和业务层面进行了分类和隔离处理,将需要生成人体的场景独立为 AI 模特图模块,同时为不同品类商品搭建多条生成链路,并通过动态可配置的流程设计,确保链路体系的灵活性和可复用性。
针对商品主体细节易失真的问题:引入图像修复 inpainting 技术,通过文本约束和边缘约束等条件控制,确保生成过程中保持图像关键特征的稳定性。
我们不仅具备整图重构能力,还构建了专门的商品图编辑 Agent,支持区域擦除、画面扩展等多种精细化编辑功能,通过模块化任务链路满足多样化需求。
3. 多模态内容生产——技术框架解析
接下来我将以 AI 创意工厂的产品链路为例,重点解析我们的技术框架。

我们的 AI 模特图的应用场景功能是指输入一件商品图片,系统会自动生成模特穿着该服装的展示图,同时对模特的丰富度和多样性也有相应要求。技术框架主要包含三个模块:
检测与分割模块:通过主体检测和分割技术,确保服装主体的完整性,只对主体以外的部分进行编辑,从而保持主体一致性。
可控性 SD 生成模块:在模特生成过程中,我们采用多种控制方法(如姿势控制、深度控制等)来提升生成结果的合格率。
后处理模块:包括面部细节微调和画质增强,确保最终输出效果更加精细。

在检测与分割方面,我们的技术选型是对 Grounding dino 模型进行了微调。这个模型本身是一个检测模型,通过使用电商数据进行微调,使它能够更好地理解电商场景中的品类信息,从而更准确地定位目标主体。
在分割模型的搭建,我们优化了 HQ-SAM 算法,并将其与前景识别的 Matting 算法相结合,实现了更精细的分割效果。我们支持两种分割方式:自动识别分割和用户交互式分割。由于这是线上任务,对时效性要求较高,我们对模型进行了性能优化。具体措施包括:
将 HQ-SAM 拆分为编码器和解码器两部分分别部署,编码器部署在服务器端,解码器部署在前端;
采用量化和推理加速技术,并通过 TensorRT 进一步优化部署服务。
经过优化后,抠图和分割模块的处理时间从原来的 2-3 秒缩短至前端 CPU 仅需 0.5 秒,显著提升了性能。

在可控性生图模块中,我们采用扩散模型结合 Inpaint 的技术方案。通过 AI 自动捕绘 mask 以外的区域,同时保留原图的商品区域,保证了商品主体部分不被修改。
在可控性方面,我们引入了包括 ControlNet 网络和 Adapter 网络在内的约束机制。这些网络的加入显著提升了图像生成的可控性,有助于提高优质图片的产出率。上面图中右侧就是我们可控性模块的框架图。

在框架中的后处理模块主要为了解决商品细节度不强,导致图片看起来不真实的问题。我们针对商品和背景细节单独训练了 Lora 模型,对细节进行了增强,提高了模特与背景的融合度及整体真实感。
针对人脸区域可能出现的小面积崩坏的问题,我们采用重绘技术进行处理。首先识别人脸区域并重绘,在重绘过程中还原面部细节特征,包括表情和五官的细微调整,提升面部的真实度。

我们的 AI 模特图链路在实际应用中是非常丰富的,主要包括:
店铺导购页搭建:通过链路去搭建一些 AI 到导购页。
商品成长和打爆(指通过运营方法助助力商品变成爆品):特别对于新品而言,通过生成街景展示图,能有效提升商品前期的点击率,进而影响其打爆效果。
此外,我们通过这个链路构建了穿搭场景功能。在实际使用中,我们发现商家在使用这个产品的过程中,表现出多样的应用方式,比如:雇佣专业模特、店铺老板亲自实拍后,然后通过我们的工具进行重绘处理。这些实际应用案例充分验证了 AI 模特图链路的高可用性。

商品图与模特图的主要区别在于:商品图对布局规划有更高要求。在进行商品图重构时,需要先进行布局规划,再基于布局进行生产。我们在 AI 商品图方面也建立了一条链路,解决方案是:
从线上获取优质商品图布局进行聚类分析。
生成适用于下游应用的合理 layout 方案。
由生产的 layout 方案指导商品图生成。
另一个显著差异是商品图需要突出展示商品属性的核心卖点,为此我们增加了两个专门模块:
利益点生产模块 - 基于 1.0 阶段积累的技术能力
利益点渲染模块 - 包含智能配色、文本样式选择算法(涵盖字体、字号、色彩等),确保利益点信息与商品图的整体布局和谐统一,并合成生成到图上。

在上面的图中展示的是通过 AI 商品图 Agent 实现的优化效果。我们对原始商品图进行了以下优化处理:
添加商品利益点
强化商品属性的关键元素
增加商品使用场景(如示例所示),以增强商品图的场景表现力
这些优化有效提升了商品图的视觉吸引力和信息传达效果。

除了商品图重构外,我们还需要应对局部区域编辑的场景。为此,我们构建了区域编辑 Agent,它的工作流程包含以下六个步骤:
功能选择:需要根据图片内容和使用场景识别用户的意图,比如“擦除氛围框”会选择要素擦除流程。
预处理-擦除:要素擦除前需要自动进行要素检测,包括牛皮藓、背景卖点、装饰性卖点等商品图的几种主要成分,识别要擦除的区域后才能构建 mask 给擦除模型。
预处理-扩图:对需要扩图的任务,则是通过相应的目标图片比例,自动判断主体区域以及合适的扩图方向和区域。
图片内容理解:根据原始素材,通过理解算法模型挖掘出更多的显示特征(包括商品品类、商品图的描述等),在擦除或者扩图的过程中将这些特征以条件的形式注入模型,提升模型编辑成功率。
后处理:通过贴回原图以及边缘区域渐进融合等策略,最大程度上和原始素材一致,且与原图自然融合;扩图后还需要按选定的目标尺寸对一次延展结果进行缩放。
内容分发:经过商品编辑 Agent 产出的图片会分发到 AI 创意工厂、劣图治理平台或者商品发布等多个应用场景中。

在调研中,我们发现现有图片编辑算法在处理结构性较强的场景时,往往难以有效恢复商品结构。我们自主研发了图片编辑模块 SRM,它是一个可插拔模块,能够与现有 SD 框架下的各类模型配套使用。
SRM 核心思路是采用快速傅里叶卷积算法对频率特征进行操作,直接处理扩散传播中的潜变量。这种方法能够直接从频率维度提取待修复图片的结构信息,并将这些信息注入到生成的 UNet 网络中。通过构建 SD+SRM 的复合结构,有效帮助扩散模型恢复结构信息,从而获得最优的图片编辑效果。

我们的算法在多个数据集上与现有方法进行了对比实验,包括 SD 的 in-paint、ControlNet 以及 PowerPoint 等开源算法。
实验结果表明,作为一个可插拔的小模块,我们的算法在结合这些原始模型时,都能带来性能提升。这充分证明了我们的算法在提取图像结构信息方面具有出色能力。
4. 技术方案

在 2.0 时代,我们主要聚焦于构建核心能力,包括关键链路、AI模特图、AI商品图以及图片区域编辑等功能,重点解决了生产成本高和内容同质化的问题。
随着业务需求的提升和多模态技术的进步,我们面临着更高层次的挑战,逐步迈入 3.0 时代,要求实现内容从无到有的生产过程,更强调从有到优的优化提升。
因此,在 3.0 时代,我们重点构建多模块、多模态的内容优化 Agent。优化的关键在于建立明确的标准体系,因此我们投入大量精力制定优质内容的标准规范。
05
3.0 时代落地挑战与解决思路
1. 多模态内容优化——落地挑战

在 3.0 时代我们面临的一个挑战是:不同业务场景下的评估标准各不相同。若缺乏明确的评估标准,就难以确定优化方向,导致 Agent 无法做出决策。那么如何实现优化?这正是 3.0 时代比 2.0 时代更具挑战性的原因。我们需要先建立好的评估标准,并在此框架下进行合理的路径规划及工具选择。值得注意的是,电商不同场景下的用户心智也存在差异:
搜索场景中用户购物需求明确,需要素材直观展现产品优势。
推荐场景则侧重满足用户的浏览和种草需求。
频道页需要突出商品“一盘货”的统一心智特征。
由于场景心智的差异,优质素材的特征也各不相同。这些特征需要构建 Agent 来理解,从而定义出各场景下的优质素材标准,为优化工作提供明确方向。

我们希望通过优化内容点击率或 IPV 等业务指标,这是需要严重依赖于 Agent 的细粒度理解能力和推理决策能力。
在构建内容理解 Agent 时,我们发现商品图具有以下特点:
商品图复杂度高:与传统图像不同,电商内容需要细粒度理解图片中的各种原子要素。
优化依赖诊断决策:执行优化前需要依赖诊断和决策分发 Agent。当前 2.0 版本已构建丰富的工具库,关键在于如何精准匹配优化工具。
多环节优化挑战:以利益点编辑为例,如果我认为这张图的利益点表达不够强,需要换一张,那么完整链路包括:识别利益点位置、调用擦除算法进行预处理、生成强表达的利益点、合理布局渲染。
在这整个多步的协同中,需要 Agent 具备路径规划和决策能力。

另一个挑战是内容优化 Agent 引擎的运作,它包含很多链路,涉及多 Agent 协同工作,在执行过程中存在以下问题:
长链路优化 Agent 在执行时容易出现误差积累,影响最终质量结果不好。
不同任务间的 Agent 存在冲突问题。
这些问题都需要我们重点解决。
2. 文本内容工业化生产——解决思路

我们的解决思路如下:
(1)构建内容理解 Agent:建立不同场景下的商品图评估体系
我们将商品图解构为五个维度:主体、背景、利益点、设计要素和布局。基于这五个维度进行细粒度分析,结合模型对不同细分品类优质电商图特征的理解,总结沉淀作图经验,从而建立商品图质量评估体系。
(2)建立内容诊断与优化 Agent
在评估体系基础上,这个 Agent 将负责诊断商品图问题并指导优化方向,通过赋予其推理和规划能力,明确优化方向及工具选择。
(3)解决 Agent 协作与冲突问题
针对多 Agent 协作中的难点,我们引入了机制优化 Agent 间的路由分配,提升各 Agent 的鲁棒性,从而让最终任务执行效果变得更佳。

在上面图中是我们内容优化 Agent 的整体流程链路:
定义好图标准:在上图中左侧是内容理解 Agent 部分,主要解决如何定义线上业务指标优秀的好图,具体包括:主图拆解分析、主图特征理解。
实现优化落地:在上图中右侧是优化执行部分,基于好图定义来实现功能,包括:图片诊断分析、优化策略规划、工具箱动作选择、具体优化执行。

我们内容理解系统是基于多模态大模型构建,主模型采用 Qwen2.5VL 版本。
通过利用商品主图信息、商品基础数据以及图像结构特征来训练这个多模态大模型,使其具备多种电商任务理解能力,包括:
商品图质量识别(例如白底图可能会用到哪些场域中)
主图质量评估(在不同场景下,给出差异化评估方案)
优化建议(主图/副图如何优化,以及一些作图的细节)
构图指导(包括如何布局设计图、背景应该怎样选择、要素构成有哪些等具体建议)
这个内容理解 Agent 集成了多种内容理解算法,为后续的内容生产 Agent 提供了前置准备,并指导优化方向。

下面将以内容理解 Agent 的案例来说明:假设线上有一张需要优化的图片。
第一步:将图片交给内容理解 Agent 处理:
它会根据线上指标筛选竞对品,竞对品的筛选逻辑包括:用户侧的 I2I 召回点击数据、商品图的理解,涉及商品图特征如美学评分、牛皮癣检测、质量评估、相关性、相似性等。
融合这些商品图特征和用户特征,结合线上 CTR 打分数据,综合筛选出竞对品。
第二步:交给诊断 Agent 进行处理:
分析待优化图片与优质竞对图的差异。
判断后续优化动作是否能通过工具箱的工具复用调用。
给出的诊断会与后面工具箱的工具联动。
这样就能利用后续的优化 Agent 对这张图进行具体优化。

我们的内容生产 Agent 是一个多 Agent 协同系统,处理多种决策信息,处理步骤如下:
基于行业多维度的信息,对图像制作提供基础建议。
对生成的物料进行筛选和判断。该 Agent 会根据制图需求和现有物料情况,评估是否满足生成条件。
若条件满足,Agent 将调用图像生成指令,输出包括布局信息、Prompt 等基本要素,通过 SD 相关流程完成图像生成。
当生成不含利益点的图像后,系统会调用文案生成模型,获取产品买点和卖点信息,并由 Agent 生成埋点布局建议和排版方案。
最终将利益点信息以合理的排版方式渲染至图像上。

正如上面图中所示,当前内容生成 Agent(生成商品场景图) 的结构可划分为三个模块:
商品图设计模块:包括背景库的理解和构建、商品素材的智能判别和构图建议。
场景库构建模块:根据上下文商品主体的理解,从背景库中选择合适的背景,利用诊断后的布局信息进行图片生成。
利益点添加模块:在生成图像基础上,精准植入营销利益点信息。
这个结构完整覆盖了从商品理解到最终成图的端到端流程。

目前,我们通过内容优化 Agent 分析线上优质商品图的细节特征,以此指导作图优化,提升最终成品图的质量。现阶段正处于第三阶段的研发过程中,相关工作仍在持续完善和推进。
06
总结&未来规划
1. 总结

总结来看,近两年的工作经历了三个阶段的发展:
1.0 时代:实现了文本内容的工业化生产
2.0 时代:拓展至图片、视频等多模态内容生产
3.0 时代:通过 Agent 技术模拟美工经验,优化商品图制作流程,推动内容质量从“有”到“优”的升级,提升线上转化效率
2. 未来规划

未来我们的工作将围绕以下四个方向展开:
更实时:实时感知能力提升
线上商品内容和营销环境持续变化,因此需要建立动态感知机制,结合实时效率指标优化 Agent 决策,确保内容调整与电商环境同步。这是一个非常重要的环节
更智能:更智能优化迭代
当前内容优化 Agent 仍处于初级阶段,搭建过程中也会遇到一些问题,各环节仍需完善。我们将持续优化流程设计,提升 Agent 的智能化水平。
更准确:数据驱动精准决策
以商家真实经营数据为核心,我们现在已经接入了商品的部分效率数据、用户行为数据等这些内容数据,后面进一步还需要结合搜索场域、推荐场域等多场景的额外特征数据,进而构建更准确的决策能力的 Agent,切实解决商家经营痛点。
更多功能:多模态能力拓展
随着多模态技术进步,我们将探索视频等新型内容形式的优化路径,推动 Agent 在图文以外的电商内容领域落地应用。
07
Q&A
Q1:请问当前产品和算法是如何配合的?这些优化主要是算法主导还是产品主导?
A1:目前算法与产品的配合更多是以算法能力为驱动。产品在这个过程中需要深入了解算法能力,才能共同将可产品化的方案落地。
当前领域发展迅速,功能迭代每周都有新进展。如果产品在 AIGC 领域的专业度足够,可以配合算法并提出需求;如果产品专业度不足,则需要算法同学先行实现功能 demo,探索批量化可行性,并将相关知识传递给产品。
此外,算法迭代过程中可能存在自身瓶颈,需要通过产品手段协助解决。因此需要与产品紧密沟通配合,产品也会从交互维度优化,规避算法当前的弱点和不足。目前的配合模式大致如此。
Q2:上面提到的调优的真实性提升,那么如何去系统化评估当前优化效果?
A2:在 AIGC 生产链路中,环节很多,评估是一项复杂性和繁重性的工作。这既需要对每个模块进行单点维度的评估,也需要对整个链路进行综合性评估。评估方式包括人工评估和模型评估(即用模型评估模型)。
我们的解决方案是:早期以人工评估为主,部分用算法评估进行提效,因为 AIGC 相关评估工作尚不完善。随着技术发展,我们构建了多模态评估大模型,并采用 AI Agent 自动评估 AIGC 生成图质量的方法。
目前评估能力包含:
算法层面:单点评估结合系统链路评估
业务层面:关注合格率和用户体验指标(运营和产品更关注)
算法指标:通过监控各环节原子指标和链路综合指标
评估方式已从人工监控逐步迭代至大模型评估生成细节。这方面已有较多研究工作可供参考,会后我将整理相关论文资料分享。
Q3:当前项目中 Agent 的实现方式是怎样的?是基于 AI 自主规划决策还是主要依赖 workflow?
A3:目前我们的 Agent 系统采用了混合架构。以诊断 Agent 为例,它具备自主规划能力,能够完成竞品分析的全流程:首先系统会在线检索竞品信息,该过程涉及专门的召回模块,采用特定召回方法获取候选内容。随后通过筛选 Agent,结合算法排序和图片特征分析,从召回结果中精选 3-5 个最优样本。这些筛选结果将输入多模态大模型进行处理。系统间的交互协议可采用 MCP 等多种现有方案实现。
对于流式和 Agent 的结合,例如路径规划较长的任务(如利益点编辑),流程包括:识别利益点、调用擦除功能、执行区域编辑、进行后处理,这个过程结合整合布局算法和利益点相关算法,对 3 跳以内,目前可以解决。
但是针对多跳路径规划(超过3 跳),争取找到最优路径的方法。目前我们正在探索多种解决方案:传统决策树、A*算法、强化学习方法。现阶段采用人工编排和算法,与 Agent 自动路径规划相结合的方式。我们也在不断的探索如何实现 Agent 自主决策路由的能力。
Q4:当前产品的开放使用对象、商业模式,以及生成内容能否与电商平台实现了无缝对接?这是一个关于产品应用方向的问题。
A4: 目前我们的产品定位为 ToB 商家服务工具,而非 ToC 产品。由于面向商家使用,用户规模相对有限。在商业模式上,这个产品并不是以盈利为目的。作为淘工厂体系的一部分,我们的核心目标是帮助商家降低运营成本,因此这款产品本质上是内部提效的工具。关于与电商平台的对接能力,目前产品生成的内容可以实现平台无缝衔接。