AI热点 4月前 156 阅读 0 评论

说话就能控制左右快慢!理想汽车MindVLA大模型实测视频发布

作者头像
快科技

AI技术专栏作家 | 发布了 246 篇文章

快科技3月21日消息,今天下午,理想汽车详细介绍了MindVLA大模型与现有端到端 VLM大模型的区别,并公布了相关实测视频。

按能力表现来看,MindVLA 模型加持下的汽车就像一个助手,能与用户沟通、理解用户意图,帮用户做更多事情。

比如,它可以在陌生车库漫游找车位直至自主完成泊车;

可以按照驾驶员的开快点、开慢点、左拐、右拐”等语音指令进行行动;

可以在你发给它地标照片后,按图索骥找到你等等。

理想汽车还表示,MindVLA是理想汽车下一代自动驾驶核心架构,使用了MindGPT作为语言基座,demo中的语音通过座舱的ASR后变成文字,输入给 MindVLA。

这一设计继承自 MindGPT 在语言理解与交互领域的优势能力(如语义解析、逻辑推理等),并针对自动驾驶场景进行了专项优化。

这体现了智舱与智驾在功能层的协同创新,而非系统层的完全融合。

未来,我们将持续探索多模态交互与驾驶决策的深度耦合,为用户提供更自然的人车共驾”体验。

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!