FLM-Audio – 智源研究院开源的全双工音频对话模型

# AI工具,# AI项目和框架 AI视频

FLM-Audio – 智源研究院开源的全双工音频对话模型

作者头像

AI中国 17小时前 191 阅读

4.8 (1280评分)

15,328人已学习

FLM-Audio是什么

FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型，支持中文和英文。采用原生全双工架构，可在每个时间步合并听觉、说话和独白通道，避免传统时分复用方案的高延迟问题。其独特的自然独白与双重训练范式，使模型在对话中更接近人类的自然交流方式，有效解决了异步对齐问题。FLM-Audio 仅用 100 万小时数据训练，数据量大幅减少，但回复质量高且响应敏捷自然，对噪声和用户打断也有较强鲁棒性。

FLM-Audio的主要功能

全双工语音交互：实现“边听边说”，用户可随时打断模型，模型能即时暂停输出并理解新问题后回应，交互自然流畅，延迟低。
支持多语言：模型支持中文和英文两种语言，能够满足不同语言用户的对话需求。
自然语音建模：采用“自然独白”方式模拟人类说话节奏，通过“双重训练”强化语言与声学语义对齐，兼顾低延迟与语言建模性能。
低数据高效训练：仅用约100万小时音频数据训练出70亿参数模型，在嘈杂环境、频繁打断场景下仍保持高鲁棒性和自然度。
强鲁棒性：对噪声和用户打断具有较强的鲁棒性，能迅速停顿当前输出、准确理解新问题并即时作答，保证对话的流畅性和准确性。
完全开源支持：论文、模型权重与代码均公开，支持本地部署与二次开发，方便研究与应用拓展。

FLM-Audio的技术原理

原生全双工架构：模型设计支持同时进行语音输入和输出，能实时处理语音流，实现边听边说的交互模式。
自然独白训练：采用连续句段与停顿组成的“自然独白”代替逐词对齐，更接近人类真实说话方式，提升语音交互的自然度。
双重训练策略：通过将独白交替放在音频首尾进行训练，强化语言与声学语义的对齐，提高模型对语音内容的理解和生成能力。
小数据高效训练：利用少量音频数据（约100万小时）训练出高参数量模型，通过优化训练方法和架构，实现低延迟和高鲁棒性。

FLM-Audio的项目地址

GitHub仓库：https://github.com/cofe-ai/flm-audio
HuggingFace模型库：https://huggingface.co/CofeAI/FLM-Audio
arXiv技术论文：https://arxiv.org/pdf/2509.02521

FLM-Audio的应用场景

在线教育：AI 助教可实时回答学生问题，提供更自然、高效的互动体验。
游戏与虚拟现实（VR）：NPC 可实现不间断、可打断的自然语音互动，增强游戏的沉浸感。
智能客服：低延迟对话减少用户等待，提升客服效率和用户体验。
智能陪伴：为用户提供更接近真人的语音互动，增强陪伴感。
语音助手：在智能家居、智能办公等场景中，提供更自然的语音交互体验。
会议辅助：在多人会议中，实时翻译、记录和互动，提高会议效率。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程！

作者头像

AI导师李明作者

1天前

多谢

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

混元3D-Omni – 腾讯混元推出的3D资产生成框架

混元3D-Omni – 腾讯混元推出的3D资产生成框架

9小时前 • AI视频

GDPVAL – OpenAI开源的AI模型经济价值评估框架

GDPVAL – OpenAI开源的AI模型经济价值评估框架

13小时前 • AI视频

FLM-Audio – 智源研究院开源的全双工音频对话模型

FLM-Audio – 智源研究院开源的全双工音频对话模型

17小时前 • AI视频

Spark Chemistry-X1-13B – 科大讯飞开源的化学模型

Spark Chemistry-X1-13B – 科大讯飞开源的化学模型

17小时前 • AI视频

SimpleFold – 苹果开源的轻量级蛋白质折叠预测AI模型

SimpleFold – 苹果开源的轻量级蛋白质折叠预测AI模型

1天前 • AI视频

Vidu Q2 – 生数科技推出的新一代图生视频模型

Vidu Q2 – 生数科技推出的新一代图生视频模型

1天前 • AI视频

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI视频

Audio2Face – 英伟达开源的AI面部动画生成模型

Audio2Face – 英伟达开源的AI面部动画生成模型

1天前 • AI视频

热门标签

企业级AI 发现《扉をあけて (打开心扉)》 PhoneUse AI牛马营收 intellij AI图像生成器 I/O版 AI技术中心 SAP

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝