开源项目 1天前 • 169 阅读 • 0 评论

小米开源声音理解大模型 MiDashengLM-7B，22项评测刷新SOTA！

作者头像

AI中国

AI技术专栏作家 | 发布了 246 篇文章

8月4日，小米公司正式宣布开源其自研的声音理解大模型 MiDashengLM-7B。

该模型在22个公开评测集上刷新了多模态大模型的最好成绩（SOTA），并在推理效率上实现了显著突破，标志着小米在音频多模态AI领域取得重要进展。

功能亮点

音频描述：将音频内容（包括语音、环境声、音乐等）转化为自然语言描述，帮助用户快速理解音频信息。

音频分类：识别音频中的特定类别（如语音、环境声、音乐等），用在环境声音识别、音乐分类等场景。

语音识别：将语音转换为文本，支持多种语言，广泛应用在语音助手、智能座舱等场景。

音频问答：根据输入的音频内容回答相关问题，适用智能座舱中的环境声音问答、音乐问答等。

多模态交互：结合音频和其他模态（如文本、图像）进行综合理解，提升智能设备的交互体验。

音频理解与推理能力

音频理解性能领先

MiDashengLM在音频描述、声音理解、音频问答任务中有比较明显的优势：

在音频描述任务中，MiDashengLM-7B比Qwen、Kimi同类7B模型性能更强。

在声音理解任务中，MiDashengLM-7B与FMA、VoxCeleb-Gender项目均领先于Qwen的7B模型，与Kimi的7B模型相比，仅有VoxCeleb-Gender项目略微落后。

在语音识别任务中，MiDashengLM-7B的主要优势在于GigaSpeech 2，在其他两组测试中Qwen和Kimi有一定优势。

推理高效

首Token延迟低： 在单样本推理（batch size=1）场景下，其首个Token预测时间（TTFT）仅为业界先进模型（如 Qwen2.5-Omni-7B）的 1/4。

并发能力极强： 在80GB GPU显存环境下处理30秒音频并生成100个Token的测试中，MiDashengLM-7B 可支持高达 512 的batch size，而对比模型在batch size为16时即出现显存溢出（OOM）。其每秒可处理的30秒音频数量远超同类模型。

MiDashengLM-7B 的开源是小米在AI多模态领域，特别是音频理解方向上的重要落子。其在性能、效率上的突破，以及创新的训练范式和全栈开源策略，为学术界和产业界提供了强大的新工具。

GitHub：https://github.com/xiaomi-research/dasheng-lm

#AI开源项目推荐##AI技术##github##小米开源##AI语音理解模型#TTS模型

作者头像

AI前线

专注人工智能前沿技术报道，深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了！视频分析功能将极大扩展AI的应用场景，特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度？我们正在开发一个实时视频分析应用，非常关注性能表现。

作者头像

AI前线作者

12小时前

我们测试的平均响应时间在300ms左右，比上一代快了很多，适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平，这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

华为版CUDA，全面开源了

华为版CUDA，全面开源了

8小时前 • 开源项目

Claude Opus 4.1代码实测惊人！OpenAI开源模型却只会写屎山?

Claude Opus 4.1代码实测惊人！OpenAI开源模型却只会写屎山?

10小时前 • 开源项目

王炸组合！OpenAI 首个开源模型已上线！

王炸组合！OpenAI 首个开源模型已上线！

10小时前 • 开源项目

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • 开源项目

华为开源7180亿参数大模型！

华为开源7180亿参数大模型！

1天前 • 开源项目

氪星晚报 | 华为宣布CANN全面开源开放，共建昇腾生态;深圳华强：与宇树科技业务合作正处于推进阶段，规模有待进一步提升;腾讯等入股赛丽科技公司，后者为无晶圆芯片设计公司

氪星晚报 | 华为宣布CANN全面开源开放，共建昇腾生态;深圳华强：与宇树科技业务合作正处于推进阶段，规模有待进一步提升;腾讯等入股赛丽科技公司，后者为无晶圆芯片设计公司

1天前 • 开源项目

Qwen新开源，把AI生图里的文字SOTA拉爆了

Qwen新开源，把AI生图里的文字SOTA拉爆了

1天前 • 开源项目

小米开源声音理解大模型 MiDashengLM-7B，22项评测刷新SOTA！

小米开源声音理解大模型 MiDashengLM-7B，22项评测刷新SOTA！

1天前 • 开源项目

热门标签

腾讯游戏收入宠物沉浸吃播科学大型模型基础设施数字科技 backrooms AI视频创作连接器大型服务器智能车载系统

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝