AI热点 2月前 180 阅读 0 评论

仅用三张图像即可生成 3D 场景,苹果新 AI 模型“很惊人”

作者头像

AI技术专栏作家 | 发布了 246 篇文章

据9to5Mac报道,苹果机器学习团队与南京大学、香港科技大学的研究人员合作发布了一款非常有意思的 3D AI 模型,名为Matrix3D。据悉,这款大型摄影测量模型能够仅凭几张二维照片重建三维物体和场景,这与当前的流程有很大不同。

首先要说的是摄影测量技术。它利用照片进行测量,从而创建 3D 模型或地图。目前,该过程涉及使用不同的模型进行姿态估计和深度预测等步骤,这可能导致效率低下和错误。

但 Matrix3D 通过一次性完成所有操作简化了这一过程。它接收图像、相机参数(例如角度和焦距)和深度数据,并使用统一的架构进行处理。这不仅简化了工作流程,还提高了准确性。

更有意思的是该模型的训练方式。研究人员使用了一种掩蔽学习策略,与早期基于 Transformer 的 AI 系统非常相似,这些系统为 ChatGPT 的初始版本铺平了道路。

他们在训练过程中随机隐藏了部分输入数据,这迫使 Matrix3D 不得不学习如何填补这些空白。这项技术至关重要,因为它使 Matrix3D 即使在较小或不完整的数据集上也能有效地进行训练。

结果非常惊人 —— 只需三张输入图像,Matrix3D 就能生成物体、甚至整个环境的详细 3D 重建,这显然可以为 Apple Vision Pro 等沉浸式头显带来非常有趣的应用。

研究人员在GitHub上公开了 Matrix3D 的源代码,并在arXiv上发表了他们的论文。他们还创建了一个网站,用户可以在其中观看更多示例视频,甚至可以与一些物体和环境的点云重建进行交互。

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!