Mini-o3 – 字节联合港大推出的视觉推理模型

# AI工具,# AI项目和框架 AI视频

Mini-o3 – 字节联合港大推出的视觉推理模型

作者头像

AI中国 1月前 207 阅读

4.8 (1280评分)

15,328人已学习

Mini-o3是什么

Mini-o3 是字节跳动和香港大学联合推出的开源模型，专为解决复杂的视觉搜索问题而设计。模型通过强化学习和基于图像的工具，能执行深度多轮推理，推理轮次可扩展至数十轮。Mini-o3 通过构建挑战性数据集、采用迭代数据收集流程以及提出过轮遮蔽策略等方法，显著提升模型的推理能力和交互轮次。模型在多个视觉搜索基准测试中取得最佳性能，所有代码、模型和数据集均开源，便于复现和进一步研究。

Mini-o3的主要功能

多轮交互推理：能进行深度多轮推理，交互轮次可扩展至数十轮，通过逐步探索和试错解决复杂的视觉搜索问题。
多样化推理模式：支持多种推理模式，包括深度优先搜索、试错和目标维持等。
挑战性视觉搜索：在高分辨率图像中，目标较小且存在大量干扰物体，也能准确地定位和识别目标。
性能卓越：在多个视觉搜索基准测试中（如VisualProbe、V* Bench、HR-Bench、MME-Realworld等）取得最先进的结果，展现出强大的视觉推理能力。
开源性：所有代码、模型和数据集均开源，便于研究人员复现和进一步研究，推动相关技术的发展。

Mini-o3的技术原理

冷启动监督微调（Cold-start Supervised Fine-tuning, SFT）：通过少量手工制作的示例，用上下文学习能力的视觉语言模型（VLM）生成高质量、多样化的多轮交互轨迹。
强化学习（Reinforcement Learning, RL）：基于过轮遮蔽（over-turn masking）策略，避免因交互轮次超出限制而受到惩罚，在测试时能自然扩展到数十轮交互。
降低图像像素预算（Lower Down Max Pixels）：通过减少每张图像的最大像素数，增加单次交互中允许的轮次数量，提高解决长周期问题的能力。
挑战性数据集（Visual Probe Dataset）：构建一个包含数千个视觉搜索问题的数据集，问题设计用在鼓励探索性推理，帮助模型在训练过程中学习复杂的推理模式。

Mini-o3的项目地址

项目官网：https://mini-o3.github.io/
GitHub仓库：https://github.com/Mini-o3/Mini-o3
HuggingFace模型库：https://huggingface.co/Mini-o3/models
arXiv技术论文：https://arxiv.org/pdf/2509.07969

Mini-o3的应用场景

电商场景：帮助用户在海量商品图片中快速找到目标商品，在服装电商平台上，用户通过上传一张图片搜索类似款式的服装。
智能家居：在智能家居环境中，通过摄像头捕捉图像，帮助用户快速找到丢失的物品，如钥匙、遥控器等。
监控视频分析：在监控视频中快速定位和识别特定目标，如在人群密集的场所中寻找特定人员或物品。
异常行为检测：通过多轮推理分析监控视频中的异常行为，如入侵检测、异常活动识别等。
复杂场景导航：在复杂路况中，通过多轮视觉推理帮助自动驾驶系统更好地理解和规划路径，例如在有遮挡物或复杂交通标志的场景中。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程！

作者头像

AI导师李明作者

1天前

多谢

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

Kimi Linear – 月之暗面开源的新型混合线性注意力架构

4天前 • AI视频

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI视频

Aardvark – OpenAI推出的漏洞发现与修复智能体

Aardvark – OpenAI推出的漏洞发现与修复智能体

4天前 • AI视频

WOWService – 美团推出的大模型交互系统技术报告

WOWService – 美团推出的大模型交互系统技术报告

4天前 • AI视频

AI阴影去除器

AI阴影去除器

5天前 • AI视频

酷宣AI

酷宣AI

5天前 • AI视频

Hailuo 2.3 – MiniMax推出的AI视频生成模型

Hailuo 2.3 – MiniMax推出的AI视频生成模型

5天前 • AI视频

Glyph – 智谱联合清华开源的视觉文本压缩框架

Glyph – 智谱联合清华开源的视觉文本压缩框架

5天前 • AI视频

热门标签

游戏实况云平台 DeepSomatic AI深度伪造 GreenoaksCapital 多代理系统特效上下文任务天工AI AI视频教程

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝