AI热点 2月前 78 阅读 0 评论

机器人界的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

在计算机视觉的历史上,Imagenet 挑战赛曾被誉为 AI 发展的分水岭,引爆了深度学习的浪潮。那么,在具身智能与机器人领域,是否也会迎来类似的 “拐点时刻”?


答案或许渐渐清晰。李飞飞团队与斯坦福 AI 实验室正式官宣:首届 BEHAVIOR 挑战赛将登陆 NeurIPS 2025。这是一个为具身智能量身定制的 “超级 benchmark”,涵盖真实家庭场景下最关键的 1000 个日常任务(烹饪、清洁、整理……),并首次以 50 个完整长时段任务作为核心赛题,考验机器人能否在逼真的虚拟环境中完成真正贴近人类生活的操作。



为什么 BEHAVIOR 值得关注?


与以往碎片化的基准不同,BEHAVIOR 首次提出:一个真正的家庭机器人,必须同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项能力。


任务规模前所未有:覆盖 1000 个家庭活动,50 个完整长程挑战,平均单个任务需要 6.6 分钟连续操作。


  • 高保真环境仿真:基于 NVIDIA Omniverse 的高保真模拟器 OmniGibson,支持衣物折叠、液体倒水、加热 / 冷冻等复杂物理交互。





  • 数据史无前例:10,000 条专家遥操作示范,总计 1,200+ 小时,细致标注物体状态、空间关系和自然语言描述 —— 为模仿学习和强化学习提供 “黄金数据集”。



  • 平台统一:采用星海图 R1 Pro 机器人作为默认机器人本体,双手协调与稳定导航能力让研究成果更具可迁移性。




这不仅是一个挑战赛,更是有史以来最全面的具身智能研究资源。


挑战赛怎么玩?


  • 赛题:完成 50 个 BEHAVIOR 任务,均来自真实家庭场景的复杂活动。
  • 平台:统一使用星海图 R1 Pro 本体(双手操作 + 轮式移动),保证研究成果具备可迁移性。
  • 基准方法:官方提供模仿学习(ACT、Diffusion Policy 等)与视觉语言行动模型(OpenVLA、π0)的完整训练评估流程,帮助选手快速入门。


评估标准:


  • 主要指标:任务成功率(完全达成 vs 部分达成)。
  • 辅助指标:效率(用时、路径、动作)、数据利用率(示范数量 vs 成效)。


时间线:


  • 2025/9/2:开放报名与数据下载,进入开发与公开排行榜阶段。
  • 2025/11/15:最终评估,隐藏测试集统一运行。
  • 2025/12/6-7:NeurIPS 2025 公布结果与获奖方案。


奖项虽不高(最高 1000 美元),但真正的价值在于能在 NeurIPS 舞台与全球顶尖团队交流、展示。


https://behavior.stanford.edu/


你可以在这个网站中找到安装 OmniGibson 仿真器、下载 3D 场景资源和物体模型、加载示范数据集的详细指南,网站还提供了入门套件,其中包含示例训练脚本和评估例程,方便重现基线结果,并在此基础上进一步发挥创新。


此外,文档中详细介绍了如何设置环境、如何使用机器人控制接口以及如何可视化任务执行流程,力求让你尽可能轻松地开始开发自己的解决方案。


如果你是具身智能的新手,也不用担心:BEHAVIOR 挑战提供了从仿真器设置到提交结果的详细教程和分步指南。非常期待看到全球各团队如何运用创意来应对这些任务!


一场属于具身智能的集体实验


BEHAVIOR 挑战赛并非单纯的排行榜竞争,而是一次面向核心科学问题的集体实验:当前的具身智能发展距离真正能独立完成以人为本的家务任务还有多远?机器人在新环境中能否举一反三,实现跨场景泛化?而当我们不断扩大示范数据规模时,是否会像语言和视觉领域一样,出现推动性能跃升的 “扩展率”?这些悬而未决的问题,正是 BEHAVIOR Challenge 希望通过开放赛题和大规模数据来共同探索的。


结语


从语言模型到视觉模型,AI 领域已经走过多个 “Imagenet 时刻”。而现在,具身智能正在迎来自己的里程碑。


BEHAVIOR 挑战赛既是一次学术竞技,也是一场社区实验。它不仅考验算法性能,更推动研究者集体探索:要让机器人真正走进人类生活,还差什么?


数据已开放,任务已就绪,机器人正严阵以待。


这一次,我们也许真的离 “家庭机器人” 更近了一步。




文章来自于微信公众号 “机器之心”,作者 “机器之心”

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!