AI热点 5小时前 71 阅读 0 评论

首个全自动AI科学家诞生!西湖大学最新成果:性能超越人类SOTA基线183.7%

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

人类科学家三年的工作量,如今AI两周就能轻松搞定!


最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。


对比DeepScientist与人类专家的研究进展


在AI文本检测任务中,DeepScientist仅用两周时间就实施和验证了超过1000种不同的假设,在此期间取得了相当于人类三年的进展。


在RAID数据集测试中,DeepScientist设计的方法实现了7.9%的AUROC提升,成功超越了人类现有SOTA方案


另外DeepScientist还在智能体失败归因、LLM推理加速等任务上也分别达成了新的SOTA。



下面是更多详细内容介绍。


从“科研助理”到“首席科学家”:AI科研模式的变革


过去的AI Scientist系统,如果不给定一个清晰明了的科研目标,就很容易陷入对现有知识的机械组合与无效试探的窠臼中,最终形成的科研产出在人类专家看来缺乏焦点,科学价值不高。


它们更像是能力超群的科研助理,而不是能独立指引方向的科学家。


DeepScientist的出现改变了这一现状,它不再等待人类告诉它“研究什么”,而是开始主动思考“什么值得研究”,它可以:


  • 主动识别前沿研究的根本性局限,
  • 提出全新的科学构想以解决局限性问题,
  • 自动编写代码、执行实验、设计分析实验,整理实验结果,
  • 撰写结构完整的科研论文,开源可重现代码。


简而言之,这种从“随机发现”到“长期主动式探索”的角色转变,标志着AI已经正式涉足以往只有顶尖人类心智才能胜任的、最具创造性的科学发现过程。


DeepScientist的核心机制


DeepScientist的核心目标是在一个给定的总研究预算内,最大化有价值的科学发现(Progress Findings)


它首先将混乱、依赖灵感的科学发现过程形式化为一个严谨、目标驱动的分层贝叶斯优化问题,其目标是从所有可能的候选研究空间中,找到一个最优方法,使一个未知且评估成本极高的真实科学价值函数最大化。



DeepScientist的自主科学发现闭环流程图


具体而言,DeepScientist基于多智能体协同策略,围绕一个三层级的评估循环推进。


每个层级代表了对一个科研想法(Finding)进行验证的不同保真度(Fidelity)成本(Cost),系统在每一轮迭代中,都基于其不断增长的“经验库(Findings Memory)”产出新假设和做出资源分配决策。


高层级(即具有高保真度)的信息,其价值是前一层级(低保真度)的信息为条件的,而一个想法能否在最终的高保真度评估中成功,依赖于它在低保真度实验中的表现。


在每一个层级中,只有展现出价值的科研产物才会被送入下一层级以提供更多资源用来进一步探索,否则被存储到“Findings Memory”中用于给后续的探索提供信息。


这种分层方法,确保了计算资源能够被精准地、动态地分配给在当前认知下最具潜力的研究方向,从而在有限的预算内最大化科学发现的效率。


AI两周完成三年科研进展,全面超越人类专家


为验证DeepScientist的研究能力,研究人员将DeepScientist应用在三个当前AI研究的最前沿领域:智能体失败归因、LLM推理加速与AI文本检测 。


这些任务无一例外都竞争激烈、备受社区关注,且技术基准极高,其挑战的人类研究成果均为近期在ICLR、ICML和ACL等顶级会议上发布的最新SOTA方法。


三个研究任务选取的SOTA方法


其中,在AI文本检测任务里,DeepScientist在无人干预的情况下,仅用两周时间,就自主完成了相当于人类科学家三年的进展。


在此期间,DeepScientist自主生成了2472个独特的研究想法,并对其中600个具有科学价值的假设进行了代码实现和实验验证。


最终,DeepScientist在RAID数据集上取得了7.9%的AUROC提升,同时将推理延迟降低了190%,展示出超越现有人类SOTA的卓越性能。


DeepScientist的突破性进展并不仅限于AI文本检测领域,它在多个不同的前沿任务上都展示了超越人类专家的科学发现能力,其中一个典型的例子是在“智能体失败归因”这一高度复杂的任务上。



DeepScientist在多任务中超越人工最优方法


面对现有方法难以进行有效因果推理的困境,DeepScientist自主构想并提出了名为A2P(Abduction-Action-Prediction)的全新方法,其核心创新在于将失败归因从简单的模式识别提升到了结构化的因果推理层面。


最终,该方法在Who&When基准测试的“算法生成”任务中取得了47.46分,性能相较于人类专家的SoTA基线大幅提升了183.7% 


上述成就充分证明了DeepScientist不仅能实现单点突破,更能创造出具有持续影响力的科学成果,其泛化能力和系统性创新能力足以在多个前沿领域稳定地推动技术边界。


此外,在自动化科学发现领域,实验的成功率常常不足1%。这个数字虽然残酷,却真实地反映了科学探索的高度不确定性。


DeepScientist的研究统计结果


不同于依赖大规模随机试错的方法,DeepScientist通过形式化的分层贝叶斯优化机制,在“利用已有成果”与“探索未知可能性”之间灵活平衡,能够在庞大的假设空间中智能筛选出最具潜力的研究方向。


在探索过程中,DeepScientist不仅能高效执行大规模实验,还会把成功与失败的结果都视作宝贵经验,用来指导后续的决策。


这种记忆驱动、目标导向的迭代流程,使其能够自主运行数月之久,在浩瀚的可能性空间中持续寻找突破口,不断推动科学发现的进程。


换句话说,如果没有精细化的策略与结构化的反馈机制,这类探索几乎不可能取得成果,而 DeepScientist 的设计恰恰保证了,即便面对极低的成功率,它也能在闭环学习中稳步积累成果,展现出远超暴力搜索系统的持续进化能力与科学发现潜力。


“科学发现缩放定律”?用算力驱动创新


在分析实验中,如下图所示,研究团队发现:当并行 GPU 资源从1枚扩展到16枚时, DeepScientist每周产出的前沿级科学发现数量从0项跃升至11项,几乎呈现出理想的线性增长



这意味着,科学突破不再只是依赖少数灵光一现,而是可以像训练大模型一样,通过系统化地增加计算资源来“规模化生产”。


这种趋势正在推动科研范式的转变:从过去依靠“人力密集型”投入,逐步走向“计算密集型”驱动,为解决人类面临的重大科学挑战,开辟了一条全新且可加速的路径。


未来展望:开启人机协同的科研新范式


DeepScientist 的成功并不意味着AI将取代科学家,而是预示着一个全新的人机协同科研范式的到来。


在这个范式中,人类研究者的角色将从繁重的试错和实验中解放出来,专注于提出真正有价值的科学问题、设定具有前瞻性的研究方向,并进行最终的综合与判断。


而 AI,将作为一台不知疲倦、并行扩展的“科学探索引擎”,在人类智慧的引领下,以前所未有的速度和广度持续探索科学的无人区。


为了推动这一范式的到来,研究团队将开源DeepScientist的核心系统与全部实验日志,希望通过开放共享的方式,激发全球科研社区的创新力量,共同加速 AI Scientis的发展,迎接从基础物理到新药研发等人类重大挑战的突破时刻。


西湖大学自然语言处理实验室期待与更多研究团队携手促进自动化科学发现的进步。


团队现已开放了免费的DeepScientist服务申请,希望与科研社区共同建设一个更加高效的科学发现新范式,使其能够真正加速人类科学发现的历程。


同时也欢迎感兴趣的研究者与研究团队联系,加入这场科研新旅程!


西湖大学自然语言处理实验室(WestlakeNLP)成立于2018年9月,由张岳教授领导。


张岳教授毕业于牛津大学,获博士学位,现任西湖大学工程学院副院长,著有剑桥大学出版社出版的《自然语言处理》一书,并担任过EMNLP 2022等多个顶级NLP会议的程序委员会主席。


该实验室目前专注于语言模型推理、泛化和通用人工智能以及自然语言处理的基础与应用研究,探索通用人工智能的实现路径,推动 AI Scientist(AI科学家)的发展,使其能够真正参与并加速科学发现,促进人类科学的持续进步。


围绕这一愿景,WestlakeNLP近期也系统地撰写了AI Scientist方向的观点文章与综述论文,希望为该领域的发展提供更加全面的思考与参考。


在线网址:


https://ai-researcher.net


开源仓库:


https://github.com/ResearAI/DeepScientist


DeepScientist申请链接:


https://forms.gle/U9W3jfdGnKpGbScNA


实验室联系方式:


https://westlakenlp.com


文章来自于微信公众号 “量子位”,作者 “量子位”

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!