Mini-o3 – 字节联合港大推出的视觉推理模型
# AI工具,# AI项目和框架 AI视频

Mini-o3 – 字节联合港大推出的视觉推理模型

作者头像 AI中国 15小时前 198 阅读
4.8 (1280评分)
15,328人已学习

Mini-o3是什么

Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推理,推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法,显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能,所有代码、模型和数据集均开源,便于复现和进一步研究。

Mini-o3的主要功能

  • 多轮交互推理:能进行深度多轮推理,交互轮次可扩展至数十轮,通过逐步探索和试错解决复杂的视觉搜索问题。
  • 多样化推理模式:支持多种推理模式,包括深度优先搜索、试错和目标维持等。
  • 挑战性视觉搜索:在高分辨率图像中,目标较小且存在大量干扰物体,也能准确地定位和识别目标。
  • 性能卓越:在多个视觉搜索基准测试中(如VisualProbe、V* Bench、HR-Bench、MME-Realworld等)取得最先进的结果,展现出强大的视觉推理能力。
  • 开源性:所有代码、模型和数据集均开源,便于研究人员复现和进一步研究,推动相关技术的发展。

Mini-o3的技术原理

  • 冷启动监督微调(Cold-start Supervised Fine-tuning, SFT):通过少量手工制作的示例,用上下文学习能力的视觉语言模型(VLM)生成高质量、多样化的多轮交互轨迹。
  • 强化学习(Reinforcement Learning, RL):基于过轮遮蔽(over-turn masking)策略,避免因交互轮次超出限制而受到惩罚,在测试时能自然扩展到数十轮交互。
  • 降低图像像素预算(Lower Down Max Pixels):通过减少每张图像的最大像素数,增加单次交互中允许的轮次数量,提高解决长周期问题的能力。
  • 挑战性数据集(Visual Probe Dataset):构建一个包含数千个视觉搜索问题的数据集,问题设计用在鼓励探索性推理,帮助模型在训练过程中学习复杂的推理模式。

Mini-o3的项目地址

  • 项目官网:https://mini-o3.github.io/
  • GitHub仓库:https://github.com/Mini-o3/Mini-o3
  • HuggingFace模型库:https://huggingface.co/Mini-o3/models
  • arXiv技术论文:https://arxiv.org/pdf/2509.07969

Mini-o3的应用场景

  • 电商场景:帮助用户在海量商品图片中快速找到目标商品,在服装电商平台上,用户通过上传一张图片搜索类似款式的服装。
  • 智能家居:在智能家居环境中,通过摄像头捕捉图像,帮助用户快速找到丢失的物品,如钥匙、遥控器等。
  • 监控视频分析:在监控视频中快速定位和识别特定目标,如在人群密集的场所中寻找特定人员或物品。
  • 异常行为检测:通过多轮推理分析监控视频中的异常行为,如入侵检测、异常活动识别等。
  • 复杂场景导航:在复杂路况中,通过多轮视觉推理帮助自动驾驶系统更好地理解和规划路径,例如在有遮挡物或复杂交通标志的场景中。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程!

作者头像

AI导师李明 作者

1天前

多谢