AI热点 3小时前 142 阅读 0 评论

企业在AI数据竞赛中如何重新掌控数据?Reddit 诉 Anthropic 的启示

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

随着实时数据访问竞争的加剧,企业面临着日益严峻的法律和运营挑战:网络数据抓取。

最初,数据抓取只是业余爱好者的一种边缘策略,如今已演变成一个由商业数据聚合器驱动的、价值数百亿元的复杂生态系统——自动机器人在面向公众的网站上撒下大网,收集价格数据、产品列表、评论等,其速度通常比人类点击“刷新”的速度还要快。如今,这些实体经常绕过传统的访问壁垒——并非直接入侵平台,而是利用合法用户的访问权限来绕过技术和合同限制。

了解网络抓取的机制以及聚合器如何利用合同变通方法对于企业和组织来说非常重要,这样他们就可以通过精心构建的协议和正确实施和配置的技术重新控制他们的数据,特别是在应用程序编程接口(API)和直接数据许可方面。

一、数据聚合器如何获取企业数据?

1、网络抓取

2025年2月9日,经济合作与发展组织(OECD)发布了一篇题为《人工智能基于抓取数据的知识产权问题》的专题报告,报告将“数据抓取”定义为“通过自动化工具从第三方网站、数据库或社交媒体平台提取信息的行为”。其核心流程包括数据收集、预处理、存储及模型训练。

数据显示,当前约70%的AI训练数据集缺乏清晰的来源许可信息。例如,大型语言模型(如GPT-3)的训练数据中,超过80%来自Common Crawl等公开网络抓取数据集。2023年一项对1800个常用数据集的审计发现,部分数据集包含盗版内容。

虽然数据抓取本身并非恶意行为,它甚至可以用于合法目的,例如支持学术研究项目、数字存档或竞争基准测试——自动化地抓取、收集和整理分散在不同网站和平台上的数据,方便用户打破互联网分布式架构下数据之间的孤立状态,整合原本分散的数据资源。

事实上,一家成功的互联网企业可能同时具有数据爬取者和被爬取者两种身份——数据的流入和流出中都有智能代理程序发挥作用。在通用人工智能全面应用和社会数字化转型全面铺开的当代,网络数据爬取行为跟凸显了其重要价值。

2、最终用户同意

为了应对诉讼和公众的强烈反对,许多大型数据聚合器现在避免直接抓取数据。相反,他们通过一种更微妙的方式进行利用:直接与平台的最终用户签订合同,并要求他们提供访问其账户的权限

例如,金融聚合器可能会要求银行客户登录其网上银行界面来“关联账户”。关联后,聚合器会收集交易历史记录、余额或其他账户数据,具体方式是使用客户凭证抓取网站数据,或通过授权的 API 连接。即使平台本身(在本例中为银行)从未授予许可,但由于客户同意,聚合器的访问行为可以说是合法的。

这种变通方法使聚合器能够避开许多直接执法工具。由于聚合器不会入侵平台系统,它们依靠用户同意的幌子,利用客户的访问权限来做聚合器本身无法直接做的事情,因此传统网络安全法规提供的补救措施可能会非常有限。

二、为何重要?平台和数据主机面临的风险

当数据抓取用于商业目的时,它将触发许多法律问题。未经授权的数据抓取可能违反服务条款,超出《反不正当竞争法》、《网络数据安全管理条例》规定的访问授权,或侵犯知识产权。

除了法律风险,数据抓取还会给服务器带来压力,扭曲网站分析,并削弱企业控制或商业化自身信息的能力。最初的技术解决方案可能很快就会成为商业和法律的导火索。

未经授权的网络抓取和最终用户访问变通方法可能会对托管数据的平台造成严重损害,例如:

  • 失去控制:聚合器决定了数据的存储、使用和货币化方式。平台对其专有或敏感数据的分发、重新格式化或转售方式失去了控制。如果一个组织依赖数据作为其收入来源,那么聚合器对数据的复制和重复使用会破坏该组织的商业模式,并降低内容的价值。
  • 安全风险和运营成本:凭证共享(尤其是在聚合器使用数据抓取而非 API访问的情况下)会造成网络安全漏洞,并增加违规或未经授权交易的风险。它还可能导致运营成本增加,服务器负载过重,并可能降低合法用户的性能。
  • 品牌和信任的侵蚀:如果聚合器滥用数据或遭受违规,客户通常会责怪原始平台,即使该平台没有参与其中。
  • 监管风险:在金融、医疗保健或保险等行业,如果以违反隐私法的方式(即使是间接的方式)访问或传输客户数据,平台可能会面临合规风险。

三、Reddit诉Anthropic 案启示:合同作为新的人工智能法律

2025年6月4日,Reddit 起诉人工智能初创公司 Anthropic 一案震动了科技界。Reddit 指控 Anthropic 非法窃取用户数据用于训练其人工智能,并以此捍卫用户的权利和数字同意的权利。

Reddit 以违约、非法侵占动产、侵权干扰和不正当竞争为由提起诉讼。Reddit 的核心指控是,Claude AI 模型的开发者 Anthropic 未经授权大规模抓取其内容,抓取行为违反了其用户协议。这并非典型的版权纠纷,而是深入探讨了在线服务条款的可执行性以及数字公共资源的所有权。

Reddit 声称,自 2024 年 7 月以来,Anthropic 已抓取超过 10 万次,即使在被明确告知停止后仍继续抓取。这引发了一些根本性的问题:人工智能公司如何获取训练数据,以及内容被使用平台的权利究竟如何。

我们正在见证一种转变:合同条款,而非传统的版权法,可能成为管理谁可以使用公开数据训练人工智能模型的主要法律框架。这意味着人工智能开发者需要仔细审查并遵守其数据来源平台的服务条款。此案可能会加速平台走向人工智能数据访问的通用许可趋势,而不是仅仅与特定公司达成定制协议。

值得注意的是,Reddit 于 2025年5 月宣布与 OpenAI建立合作伙伴关系,这将使该公司能够利用 Reddit 内容训练其 AI 模型。该公司与谷歌也签署了类似的协议。这起诉讼可能不仅仅是一场直接的法律战,而可能是Reddit的一项战略举措——诉讼通常是推动谈判和重新定义行业规范的有力杠杆。Reddit将Anthropic告上法庭,可能旨在迫使这家人工智能初创公司达成类似于与OpenAI达成的许可协议。这凸显了诉讼作为商业战略工具而非仅仅是争议解决工具的作用正在不断演变

四、解决方案:通过 API 协议和直接许可进行控制

2025年6月27日,中国通过了《反不正当竞争法》修订法案,该法案将于2025年10月15日起生效。在此次修订中,《反不正当竞争法》首次明确禁止通过不正当手段(例如绕过技术保护措施)未经授权获取或使用其他运营商持有的数据。

在实践中,如果企业或组织拥有宝贵或敏感的用户数据,那么无论是否知情,该企业很可能已经陷入了商业数据聚合器的攻击范围。即使采取了反爬虫措施,聚合器仍在肆无忌惮地利用间接访问渠道大规模窃数据。

然而,当前数据权益的反不正当竞争保护没有预定的具体法益模式,并且在竞争手段和竞争结果的衡量方面,欠缺了一定的可操作性。因此,网络数据的被爬取方(一般是原告)的反不正当竞争主张,注定其只能是一种过渡性选择,而不是一种最终办法。

因此,企业需要采取积极主动的,以降低商业网页数据抓取的风险,通过允许聚合器直接与平台签订合同,平台可以施加限制,跟踪数据使用情况,并避免下游抓取或影子访问的风险。

1、强化使用条款:通过 API 协议来引导访问,提供一个安全、结构化的网关,允许第三方在规定条件下访问特定的数据字段,并内置了安全性、使用性和合规性的防护措施;审查服务条款和数据共享政策,确保其明确禁止未经授权的抓取和下游使用:

n指定允许的用途和存储限制

n要求定期进行安全审计和数据保留实践

n禁止再授权或转售数据

n包括赔偿和执行条款

n如果违反条款,允许终止合同

n确保用户明确接受此类条款

2、评估访问控制并使用技术壁垒:评估用户如何共享或委托访问权限,以及该访问权限是否有效规避了平台的控制。考虑采取技术措施,使网络爬虫更难以大规模访问数据,包括限制访问速率以防止大量请求、使用机器人检测工具来分析流量模式,以及使用验证码来区分人类用户和机器人。

3、控制潜在的数据泄露:考虑采用 API 许可模式,在提供结构化访问权限的同时,维护平台的安全性、业务模式和合法权益。这包括限制高价值数据的访问权限,避免通过未经身份验证的 API 泄露数据,并在适当的情况下延迟关键内容的加载。

4、主动维权:网络数据爬取方通常会使用“被爬取方构成数据垄断,双方不存在竞争关系,收集数据时无主观恶意,不存在损害、数据权益没有被法律确认”等主张。因此一旦检测到抓取行为,发出停止侵权通知、删除通知、违约索赔等主张之前,请企业咨询法律顾问,了解可以采取的合法合理的补救措施,避免不必要的法律和公关危机。

参考文献:

https://www.jdsupra.com/legalnews/web-scraping-and-the-rise-of-data-5313726/

https://sghexport.shobserver.com/html/baijiahao/2025/07/29/1617514.html

https://www.lexology.com/library/detail.aspx?g=dfd6f12d-8ad4-4725-8e35-cb1cfca7acd7

https://opentools.ai/news/reddit-vs-anthropic-the-ai-data-showdown-of-2025

https://natlawreview.com/article/beyond-copyright-reddits-lawsuit-against-anthropic

本文来自微信公众号“Internet Law Review”,作者:互联网法律评论,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!