Mini-o3是什么
Mini-o3 是字节跳动和香港大学联合推出的开源模型,专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具,能执行深度多轮推理,推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法,显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能,所有代码、模型和数据集均开源,便于复现和进一步研究。

Mini-o3的主要功能
-
多轮交互推理:能进行深度多轮推理,交互轮次可扩展至数十轮,通过逐步探索和试错解决复杂的视觉搜索问题。
-
多样化推理模式:支持多种推理模式,包括深度优先搜索、试错和目标维持等。
-
挑战性视觉搜索:在高分辨率图像中,目标较小且存在大量干扰物体,也能准确地定位和识别目标。
-
性能卓越:在多个视觉搜索基准测试中(如VisualProbe、V* Bench、HR-Bench、MME-Realworld等)取得最先进的结果,展现出强大的视觉推理能力。
-
开源性:所有代码、模型和数据集均开源,便于研究人员复现和进一步研究,推动相关技术的发展。
Mini-o3的技术原理
-
冷启动监督微调(Cold-start Supervised Fine-tuning, SFT):通过少量手工制作的示例,用上下文学习能力的视觉语言模型(VLM)生成高质量、多样化的多轮交互轨迹。
-
强化学习(Reinforcement Learning, RL):基于过轮遮蔽(over-turn masking)策略,避免因交互轮次超出限制而受到惩罚,在测试时能自然扩展到数十轮交互。
-
降低图像像素预算(Lower Down Max Pixels):通过减少每张图像的最大像素数,增加单次交互中允许的轮次数量,提高解决长周期问题的能力。
-
挑战性数据集(Visual Probe Dataset):构建一个包含数千个视觉搜索问题的数据集,问题设计用在鼓励探索性推理,帮助模型在训练过程中学习复杂的推理模式。
Mini-o3的项目地址
- 项目官网:https://mini-o3.github.io/
- GitHub仓库:https://github.com/Mini-o3/Mini-o3
- HuggingFace模型库:https://huggingface.co/Mini-o3/models
- arXiv技术论文:https://arxiv.org/pdf/2509.07969
Mini-o3的应用场景
- 电商场景:帮助用户在海量商品图片中快速找到目标商品,在服装电商平台上,用户通过上传一张图片搜索类似款式的服装。
- 智能家居:在智能家居环境中,通过摄像头捕捉图像,帮助用户快速找到丢失的物品,如钥匙、遥控器等。
- 监控视频分析:在监控视频中快速定位和识别特定目标,如在人群密集的场所中寻找特定人员或物品。
- 异常行为检测:通过多轮推理分析监控视频中的异常行为,如入侵检测、异常活动识别等。
- 复杂场景导航:在复杂路况中,通过多轮视觉推理帮助自动驾驶系统更好地理解和规划路径,例如在有遮挡物或复杂交通标志的场景中。