AI热点 4小时前 133 阅读 0 评论

机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

8 月 11 日,在世界机器人大会上,阿里达摩院宣布开源自研的 VLA 模型 RynnVLA-001-7B、世界理解模型 RynnEC、以及机器人上下文协议 RynnRCP ,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。


开源链接:


  • 机器人上下文协议 RynnRCP


  • https://github.com/alibaba-damo-academy/RynnRCP视觉 - 语言 - 动作模型 RynnVLA-001


  • https://github.com/alibaba-damo-academy/RynnVLA-001世界理解模型 RynnEC


  • https://github.com/alibaba-damo-academy/RynnEC


具身智能领域飞速发展,但仍面临开发流程碎片化,数据、模型与机器人本体适配难等重大挑战。


达摩院将 MCP(Model Context Protocol)理念引入具身智能,首次提出并开源了 RCP(Robotics Context Protocol)协议以推动不同的数据、模型与本体之间的对接适配。


达摩院打造了名为 RynnRCP 的一套完整的机器人服务协议和框架,能够打通从传感器数据采集、模型推理到机器人动作执行的完整工作流,帮助用户根据自身场景轻松适配。RynnRCP 现已经支持 Pi0、GR00T N1.5 等多款热门模型以及 SO-100、SO-101 等多种机械臂,正持续拓展。



具体而言,RynnRCP 包括 RCP 框架和 RobotMotion 两个主要模块。


RCP 框架旨在建立机器人本体与传感器的连接,提供标准化能力接口,并实现不同的传输层和模型服务之间的兼容。


RobotMotion 则是具身大模型与机器人本体控制之间的桥梁,能将离散的低频推理命令实时转换为高频的连续控制信号,实现平滑、符合物理约束的机器人运动。同时,RobotMotion 还提供了一体化仿真 - 真机控制工具,帮助开发者快速上手,支持任务规控、仿真同步、数据采集与回放、轨迹可视化等功能,降低策略迁移难度。


大会上,达摩院还宣布开源两款具身智能大模型。


RynnVLA-001 是达摩院自主研发的基于视频生成和人体轨迹预训练的视觉 - 语言 - 动作模型,其特点是能够从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上,从而让机械臂操控更加连贯、平滑,更接近于人类动作。


世界理解模型 RynnEC 将多模态大语言模型引入具身世界,赋予了大模型理解物理世界的能力。该模型能够从位置、功能、数量等 11 个维度全面解析场景中的物体,并在复杂的室内环境中精准定位和分割目标物体。无需 3D 模型,该模型仅靠视频序列就能建立连续的空间感知,还支持灵活交互。


据了解,达摩院正积极投入具身智能,聚焦于系统和模型研发,与多方共建产业基础设施,包括硬件本体和标准组件适配、数据采集,以及技术社区 DAMO 开发者矩阵等,希望拓展机器人的产业空间,加速场景落地。


达摩院还在上月开源了 WorldVLA 模型,首次将世界模型与动作模型融合,提升了图像与动作的理解与生成能力,受到业界关注。


文章来自于微信公众号“机器之心”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!