“我最近刚满 19 岁,从加拿大滑铁卢大学计算机学院退学(创业),致力于创建最高质量的编码数据引擎,为最强大的大模型提供支持。”不久前,出生于加拿大的亚裔女孩 Serena Ge 在自己的个人网站上写下这段话。
图 | Serena Ge 在个人网站上简要描述了自己从名校退学创业的事情(来源:https://serenage.super.site/)
2025 年 10 月 9 日,她像许多成熟的“大人创业者”一样在领英上官宣了融资一个亿的动态,并一一地手动艾特投资人致以感谢。
图 | Serena Ge 在领英主页官宣公司获得融资的消息(来源:https://www.linkedin.com/feed/update/urn:li:activity:7382092989067792384/)
据了解,她创办了一家名为 Datacurve 的 AI 数据公司,并由她担任 CEO。为了更好地创业,她邀请到同为亚裔的同校校友 Charley Lee 担任联合创始人。该公司此次融资了 1500 万美元(折合 1.1 亿元人民币),力图挑战 Alexander Wang 成为下一个 Scale AI。
图 | Datacurve 的创始人兼 CEO Serena Ge 以及联合创始人 Charley Lee(来源:Chemistry VC)
此次融资由 Chemistry VC 的合伙人马克·古德曼(Mark Goldberg)领投,Coinbase 的前 CTO 巴拉吉·斯里尼瓦桑(Balaji Srinivasan)、DeepMind、Vercel、Anthropic 和 OpenAI 的员工也参与了投资。值得注意的是,最近美国越来越流行这样一个趋势,那就是科技巨头的高管们开始以个人名义投资新一代的 95 后和 00 后创业者。
说回 Datacurve 的两位创始人。Serena Ge 曾于 2023 年在 Cohere 公司实习,Charley Lee 曾于 2023 年在谷歌加拿大分公司实习。
图 | Serena Ge 在个人网站上简要描述了自己从高中开始的一些大事记(来源:https://serenage.super.site/)
相比另一位创始人,Serena Ge 的经历稍微丰富一些。在高中时代,她非常热衷于攀岩,甚至觉得不能攀岩之时的那种煎熬就像“毒瘾犯了”一样,为此她在家里自制了一面攀岩墙。而为了让个性化攀岩训练更加触手可及,她在高中时研发了一款攀岩 App,这帮助她获得了参加加拿大青少年抱石锦标赛的资格。凭借自己的编程能力,她还在新冠疫情期间组建了一支高中生团队,并和他们一起为疫情隔离区的青少年打造了一款网络应用程序,期间得到了加拿大道明银行的支持。她还曾在加拿大皇家银行担任实习软件工程师,期间构建了一个内部漏洞管理仪表板,处理了超过 90k+ 个漏洞条目。
作为创始人和 CEO,Serena Ge 的创业之旅并非心血来潮或赶时髦。在 Cohere 实习期间,她曾参与十亿参数 SOTA 模型的训练和步骤,期间研究了如何通过监督微调和合成数据来提高模型推理能力,并通过使用 GPU 并行处理 100 万个图像提示,为 Cohere 构建了数据安全过滤器。
她说这次创业始于自己在 Cohere 训练大模型的实习经历,这份经历让她意识到数据质量的重要性,并让她开始觉得大模型之所以存在瓶颈就是因为缺乏丰富的、精心挑选的高质量培训数据。在 Cohere 实习期间,她发现当时人们很难获得专家级的编码数据,因为数据标注在此之前一直都是一个剥削性的低技能工作,往往由来自一些欠发达地区的零工完成。之前,AI 数据公司很难招募到高素质的软件工程师来担任“注释员”。
而她的创业使命便是为了破解这一数据难题,她所创办的 Datacurve 公司通过游戏化平台来收集高质量数据,招募数百名顶尖的外部软件工程师来解决编码难题。据了解,Datacurve 从 Y Combinator 的一个创业项目孵化而来,主要业务为大模型提供高质量数据。
该公司使用类似于“赏金猎人”的机制吸引有经验的软件工程师去打造那些难度较高的数据集,而这些软件工程师会从该 Datacurve 获得报酬,Serena Ge 告诉媒体,截至目前其已经向这些外部软件工程师发放超过 100 万的报酬。
不过,她表示吸引这些软件工程师兼职参与数据集打造的主要原因并不是能够收到这些报酬,因为他们本身所从事的软件开发是高价值服务,相比之下参与数据集打造所带来的报酬甚至远远低于传统工作带来的报酬。而真正吸引这些软件工程师参与打造数据集的动力,在于能给他们带来积极的体验。
Datacurve 并没有将打造数据集当做简单的数据标签操作工作,而是把它当成一款消费产品。随着大模型对于训练后数据需求的日益增加,当前的 AI 产品需要依赖复杂的强化学习环境,这时无法再使用以前的简单数据集,而复杂的强化学习环境需要通过特定且具有战略性的数据收集来构建。正因此,Datacurve 目前正在创建一个用于训练后数据的基础设施。
据了解,Datacurve 能够提供的数据类型是高质量的训练后数据和评估数据。首先,这些数据是能够用于各种编码任务的监督微调数据;其次,这些数据能够为代码评估和验证任务设计强化学习环境;再次,这些数据能够用于循环强化学习与人类反馈中的自定义模型端点。
图 | Datacurve 公司官网截图(来源:https://datacurve.ai/)
在数据用途上:
其一,这些数据能被用于解决大模型训练中的一些算法挑战,这些数据基于大量的原始文档标准化与对齐问题以及 Leetcode 风格的问题而来,能被用于核心算法编码技能训练或评估;
其二,这些数据能被用于代理工作流的跟踪,基于 Datacurve 的自定义集成开发环境捕获的、由软件开发工程师遥测的完整轨迹,比如通过代码执行实现编辑循环、文件导航、执行轨迹和口头想法以及书面想法,客户可以实现软件代理的训练;
其三,这些数据能被用于推理与调试,参与打造数据的软件工程师们基于日常工作中所遇到的问题,贡献出了一些推理密集型任务,这些任务可被用于模拟一些模型难题场景;
其四,可用于私人代码库任务台,即能够在企业应用程序、游戏、系统软件等私有代码库上设计自定义任务,从而能在真实的专有存储库上进行模型训练或评估;
其五,这些数据能被用于多模式界面,即通过游戏、用户体验和用户界面任务教导模型,将静态代码与动态行为联系起来,进而使用提示词、屏幕截图或录音,来训练 AI 对于交互式软件的外观、感觉和功能的跨模式理解。
而在为客户创建大规模的高质量数据,需要经历以下四个步骤:评估、数据创建、质量检查和交付。
在评估这一步骤中,Datacurve 会先识别客户的数据需求。无论客户是带着明确的需求来,亦或是希望和 Datacurve 共同制定策略,Datacurve 都能使用基准测试工具帮助客户了解模型难点和模型弱点,并能针对模型弱点找到对其进行弥补的数据类型、边缘情况和注释格式。
在数据创建这一步骤中,Datacurve 会在其游戏化平台上和外部软件工程师启动数据创建,这一游戏化平台的好处在于可以提高真人在数据生成和数据标记过程中的速度和精准度。Datacurve 在官网写道,这些外部软件工程师来自业内一些顶尖公司和初创公司,他们是在真正地解决 AI 问题,而不仅仅是完成任务。
在质量检查这一步骤中,Datacurve 并不是依赖于单一的检查,而是让每个数据集都经过自动化的一致性检查,并会进行异常检测和人工评估循环,这种混合式的方法可以确保边缘情况的标记以及错误的纠正,无论数据的复杂程度如何,都能确保在交付时符合处于严格的质量阈值之中。
在交付这一步骤中,Datacurve 会使用其“可视化数据集查看器”来检查将要交付的数据,以便进一步地检查这些数据的基准分数和质量指标。对于客户来说,他们将能了解这些数据所能构建的内容、性能表现以及在开发流程中的位置。同时,Datacurve 可以提供不限次数的修改。
当前,AI 发展日渐成熟,对于高质量数据的争夺也成为了业内激战的方向之一,在这一领域除了众所周知的 Scale AI 公司之外,还涌现出了 Surge AI 等公司。随着 Scale AI 的创始人 Alexander Wang 开始将精力放在 Meta 公司的 AI 业务上,让许多投资人看到了 AI 数据这一方向的发展机会,并尤其愿意为那些能够提供优质训练数据收集策略的公司投入资金。值得注意的是,Scale AI 和 SurgeAI 的创始人都是亚裔,而此次 Datacurve 的两位创始人也都是亚裔,这再一次展示了亚裔人士在北美科技圈的力量。
与此同时,Serena Ge 很爱思考甚至对于哲学有着一定热爱。她在个人网站写了不少随笔。在一篇随笔中,她质疑了硅谷流行的“Fake it till you make it”做法,她写道:“我认识一些年轻的创始人,他们习惯于夸大自己的数据、合作伙伴、资金、发展等。我理解管理信誉和机会很重要,但当我们陷入这种恶性循环时,我们必须扪心自问,我们在做什么?这是我们想要实现目标的方式吗?不要忘了你的‘为什么’。”在北美,也许此次 1 亿多人民币的融资并不算多,但这名 00 后女生已经迈出了勇敢且务实的创业步伐。
参考资料:
公司官网https://datacurve.ai/
Datacurve创始人Serena Ge的相关主页https://www.linkedin.com/in/serena-ge-4583731b4/和https://www.instagram.com/serenaa.ge/和https://serenage.super.site/
Datacurve联合创始人Charley Lee的领英主页https://www.linkedin.com/in/charley-lee/
其他报道https://techcrunch.com/2025/10/09/datacurve-raises-15-million-to-take-on-scaleai/
文章来自于微信公众号 “DeepTech深科技”,作者 “DeepTech深科技”