Data Agent 看似轻松上手,但真正落地却充满挑战。虎兴龙在专访中指出,90% 的难点源于软件工程,而统一语义层建设是成功的关键。企业如果忽略场景聚焦、技术框架的可迭代能力或语义模型和运营体系,即便投入几个月,也可能无法监控、评估或修改,最终停留在原型阶段。掌握统一语义层、完善的技术框架和运营体系,才能让 AI 代理真正理解数据、快速迭代、落地应用,显著提升企业数据智能化效率。
采访嘉宾:虎兴龙,腾讯数据工程专家。目前负责腾讯云 WeData 数据治理、数据智能方向的产品和研发工作,涵盖 Data Agent、AgentOps、统一语义层、全域数据资产管理、数据质量管理等核心产品能力建设。有深厚的大数据技术架构、大数据应用平台建设经验,在 AI for Data 方面,有丰富的实践经验。虎兴龙将在 8 月 22 日-23 日AICon深圳站发表主题为《腾讯云 WeData Agent 的落地思考与实践》。

InfoQ:过去 BI 系统很多时候是“看数”,如今进化到从“看”到“做”,从系统工程角度看,这背后意味着什么样的技术支撑?
虎兴龙:Agent 的交互形态可以比作是数据分析的新“head” ,新 Head 一定需要新的技术支撑。我认为必须必要的两方面技术革新:1、需要有数据语义工程的平台化能力,数据工程、数据平台不止交付数据内容,还应该交付可被分析的语义。需要有数据语义层为 Data Agent 提供可靠的知识、高性能的数据操作接口;2、需要有完善的 Agent Ops 平台基础,目前 Agent 开发框架发展很快,但是 Agent 的运营体系其实很关键并且是存在不足的,Agent 运营体系主要解决怎么观测、评估、迭代进化问题。
数据工程的交付未来也会进一步升级,数据工程师未来的工作应该是 Data engineering + Data Context Engineering。目前我们腾讯云在这两块的投入和发展都是比较快的,目标是能够为客户提供 data+ai 一体化的数据智能底座。
InfoQ:过去几年我们一直在谈论湖仓架构,企业数据平台的重心主要在数据的整合与存储。但现在,您是否认为重点已经逐步转向了构建“语义层”?
虎兴龙:Data Agent 要做好,数据语义上下文的重要性和挑战已经不言而喻,Data Agent is Easy,Data Context is Hard.语义层建设的重要程度大家已经共识,国内外都在加大这里的投入,腾讯云 WeData 在这一块的投入也是比较早的。同时多模态一体化、高性能存算引擎也仍然很重要,一体化的存算引擎也支撑着统一语义层的元数据、统一数据访问能力。Data Agent 一是要准确响应用户请求,离不开语义层,另一方面需要快速响应用户需求,也离不开高性能存算引擎。
InfoQ:数据语义层主要包含哪些语义?系统能力哪些关键组成模块?
虎兴龙:数据的语义主要包含 4 个方面:①概念:主要描述数据代表的业务意义;②数据的关系:数据表之间的关联关系、血缘关系等;③指标:即数据的计算口径;④维度:即数据的观测角度。
语义层的目标是为 Agent 提供准确统一的数据访问接口,核心能力包括 4 块:①统一访问接口:需要提供 API、JDBC、MCP 等生态对接能力,能够被 Agent、BI 工具方便集成调用;②MetaRAG:需要有对语义元数据构建知识库,能够根据用户 query 准确召回数据;③语义建模能力:强大的语义表达能力,尤其是指标表达能力,一些很复杂的指标,如何抽象定义,定义后如何自动生成查询 SQL;④自适应加速能力:Agent 可能生成各种各样的查询请求,需要能够自动或者半自动化的物化加速能力。
InfoQ:有观点认为构建 AI 产品的原型其实并不难,但真正上线后却发现需要打磨的地方很多。请问您觉得从原型到成熟产品,最大的落差在哪里?现实中哪些细节和挑战最让您印象深刻?
虎兴龙:是的,原型容易,人人现在都能做一个 Agent。最大的落差是我们很容易低估场景落地的难度,现在有个词叫 TMF(Technology-Market Fit) ,其实就是某项技术能解决什么问题的评估和分析。当在 AI 产品投入初期过于乐观,实施过程中遇到瓶颈就极有可能悲观。
出现这个问题的原因我觉得有点像“邓宁-克鲁格”效应,我们乍一看模型非常聪明,没实践过复杂场景 Agent 的人会觉得我也能搞得定,草率投入,浪费资源,有 Agent 实践经验的人有可能又会悲观,过于谨慎,错失机会。比如刚开始我们感觉利用 ReAct 自主规划的 Agent 的开发模式,Prompt+模型+MCP 工具,几行代码就搞定了。
但实际落地过程中,在数据分析这种追求极致准确性的场景,让按照设定的工作流执行场景也是不可避免的。把 Agent 比做人,一些组织扁平化强调人的自主性,一些组织强调规范的流水线工作,强调行为一致性。落地过程中其实 90%是软件工程,都是在解决行为一致性确定性的问题,可能只有 10%是在做 prompt、模型调优。
InfoQ:Agent 会取代一些数据工程师/科学家的角色吗?这些职业会如何变化?是否需要掌握更多与 Agent、LLM 相关的技能?
虎兴龙:目前我还是认为 Agent 不会替代数据工程师、数据科学家,但是会替代一部分偏执行的工作。数据蕴含着对整个世界的描述和规律,除非人类被机器统治了,否则数据永远是需要人来主导分析的,Agent 知识辅助人更高效的完成这项工作。
但 Agent 会带来数据工作角色的融合,其他行业也是如此,劳动细分是为了解决复杂工程问题,当技术进步让复杂问题的实施变简单,劳动细分导致合作成本就凸显了,各行业在大模型时代,劳动角色融合是趋势,复合型人才会脱颖而出。过去埋点工程师专注做埋点、数据开发工程师专注做 ETL、数据科学家专注做算法、数据分析师专注做报表等等,未来这种分工就不必要了,一种角色端到端完成数据分析。
每个人都应该了解 Agent、LLM 的基本原理,这样才能用好大模型技术。
InfoQ:您是否同意这样的观点:“谁掌握了企业数据的语义数字孪生,谁就掌握了下游所有 AI 代理行为的主动权”?如果是,您们是如何推动这一趋势的?
虎兴龙:目前来看是的,利用 AI Agent 挖掘企业大量的私域数据的难点目前是通用大模型难以理解企业私域数据集,造成 Data Agent 的准确性、信任度不足。人与 AI Agent 的信任的基础是需要有共同的 context,语义模型是对物理世界的环境、关系、知识等结构化的定义和描述,数据分析的语义主要是:数据概念、数据关系、数据指标、数据维度,这正是数据分析领域人与 AI 的共同 context。 腾讯云 WeData 主要的策略是通过统一数据资产平台,统一纳管企业结构化、非结构化数据。在统一数据资产之上,提供统一语义建模平台,让企业进行 Data Context Engineering,为 Agent 构建语义知识基础。
InfoQ:我们往往听到说要做好数据治理才能做好 AI,数据治理和统一语义层是什么关系?
虎兴龙:数据治理是一个很广泛的概念,应该说数据治理的工作包含统一语义层的建设,统一语义层是对数据治理的更高要求。传统数据治理包含成本、安全、质量、规范等治理能力是统一语义层基础支撑,统一语义层重点是对数据进行业务建模之后,提供给数据应用层统一的数据知识、数据内容访问接口。
InfoQ:Data Agent 系统在接入企业现有平台时面临的最大的技术挑战是什么?
虎兴龙:主要有两方面挑战,第一个挑战是数据治理的挑战,企业数据杂乱,数据缺乏唯一真相。第二个挑战是 Data Agent 的效果无法评估,或者各企业评估体系和策略不统一,无法评估就无法迭代。 Agent 评估其实目前是行业难点,评估一个 text2sql 的原子能力容易,但是评估 Agent 解决一个分析问题的成功率比较困难,有些甚至需要有垂直场景领域专家来打分评测。
这两个挑战的解法目前来看主要还是 Data Agent 场景聚焦,针对特定场景的统一语义层和评估体系构建。
InfoQ:企业构建统一数据语义层的挑战是什么?应该从哪里入手?
虎兴龙:数据的语义也是非常广泛的,首先聚焦场景进行语义抽象,例如数据分析 Agent 的场景,就聚焦构建指标、维度体系,其次是存量数据治理问题,大量的数据,如何标注语义,例如数据分析 Agent,已经有大量的报表和 ADS 表了,怎么重构指标体系。这里基本没有太多捷径可以走,虽然有一些 AI 辅助的治理能力,但是避免不了大量的人力投入。整体关于统一语义层的入手点,我建议企业重点聚焦智能问数智能分析场景,先以指标平台为载体构建指标语义层,这个场景目前是被验证可行并且可以大幅提升数据分析效率的。
InfoQ:对希望构建 Data Agent 能力的企业数据团队,您有哪些技术建议?
虎兴龙:第一,场景聚焦,搭建可迭代进化的技术框架,避免为了快速做 demo,忽略技术选型、技术基建的重要性,否则有可能做了几个月后,没法监控、没法评估、没法修改,还没上线就要重构;
第二,语义模型能力是 Data Agent 的基础支撑,语义模型能力同样也能提升传统数据分析的效率,忽略数据语义层的核心能力建设可能导致 Agent 陷入迭代瓶颈,例如把各种 if else 、定制化策略、语义知识硬编码到 Agent 后台,导致无法进行技术升级和迭代;
第三、Agent 运营体系很重要,监控、标注、评估体系需要配套。