Xiaomi-MiMo-Audio是什么
Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash,在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。
小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及1.2B参数量的 Tokenizer 模型,支持音频重建和音频转文本任务。

Xiaomi-MiMo-Audio的主要功能
-
少样本泛化能力:首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化,可快速适应新任务,见证语音领域的“GPT-3时刻”。
-
跨模态对齐能力:后训练激发了智商、情商、表现力与安全性等跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
-
语音理解和生成:在通用语音理解及对话等多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能,还超过了一些闭源语音模型。
-
音频复杂推理:在面向音频复杂推理的基准 Big Bench Audio S2T 任务中表现出色,展现了强大的音频复杂推理能力。
-
语音续写能力:预训练模型 MiMo-Audio-7B-Base 是目前开源领域第一个有语音续写能力的语音模型。
-
支持混合思考:是首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考。
-
音频转文本任务:Tokenizer 模型支持音频转文本(A2T)任务,覆盖超过千万小时语音数据。
Xiaomi-MiMo-Audio的技术原理
-
创新预训练架构:采用创新的预训练架构,基于上亿小时的训练数据进行训练,使模型能更好地处理语音数据。
-
少样本泛化能力:首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,通过少量样本即可快速适应新任务。
-
跨模态对齐能力:后训练进一步激发了模型的智商、情商、表现力与安全性等跨模态对齐能力,使语音对话在自然度、情感表达和交互适配上达到极高的拟人化水准。
-
无损压缩预训练:通过语音无损压缩预训练,实现了跨任务的泛化性,证明了语音领域的“涌现”行为。
-
Tokenizer 模型:采用1.2B参数量的 Transformer 架构 Tokenizer 模型,从头开始训练,覆盖超过千万小时语音数据,支持音频重建任务和音频转文本(A2T)任务。
-
轻量后训练:通过轻量级的后训练(SFT),进一步优化模型性能,使其在语音理解和生成方面表现出色。
-
混合思考机制:将 Thinking 机制同时引入语音理解和语音生成过程中,支持混合思考,提升了模型的复杂推理能力。
Xiaomi-MiMo-Audio的项目地址
- 项目官网:https://xiaomimimo.github.io/MiMo-Audio-Demo/
- Github仓库:https://github.com/XiaomiMiMo/MiMo-Audio
- HuggingFace模型库
- MiMo-Audio-7B-Base:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base
- MiMo-Audio-7B-Instruct:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
- Tokenizer:https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer
- 技术论文:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf
Xiaomi-MiMo-Audio的应用场景
-
语音交互:可用于智能语音助手,提供更自然、更智能的语音交互体验,支持多种语言和方言的对话。
-
语音生成:能生成高质量的语音内容,适用于有声读物、语音播报、语音导航等场景。
-
语音转文本:支持语音转文本(A2T)任务,可应用于会议记录、语音输入、语音搜索等场景。
-
音频内容创作:帮助内容创作者生成音频脚本或语音内容,提升创作效率。
-
情感表达:在语音对话中展现丰富的情感表达,适用于情感陪伴机器人、客服系统等需要情感交互的场景。
-
语音识别与理解:在音频理解基准测试中表现出色,可用于语音识别、语音指令控制等场景。