开源项目 2周前 71 阅读 0 评论

Mistral Voxtral 是 OpenAI Whisper 和其他 ASR 工具的开放权重竞争对手

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

Mistral 发布了Voxtral,这是一个用于语音识别(ASR)应用的大型语言模型。这些应用寻求整合更先进的 LLM 能力,而不只是实现简单的转录功能。对于模型的两个变体Voxtral Mini(3B)Voxtral Small(24B),Mistral 已经遵循 Apache 2.0 许可发布了权重。

 

根据 Mistral 的说法,Voxtral 填补了传统 ASR 系统和更先进的基于 LLM 的模型之间的空白。传统 ASR 系统可以提供成本效益高的转录,但缺乏语义理解,而基于 LLM 的模型既提供转录又提供语言理解。虽然与 GPT-4o mini Transcribe、Gemini 2.5 Flash 等其他解决方案提供的功能类似,但 Voxtral 的优势在于其模型权重公开,提高了部署灵活性,并且支持不同的成本模型。

 

除了可以本地部署外,还可以通过Mistral提供的API访问这些新模型。其 API 还提供了一个针对转录做过优化的 Voxtral Mini 定制版本,能帮助降低推理成本和延迟。

 

Voxtral 支持 32K 令牌的上下文,使其能够转录长达 30 分钟的音频,或理解长达 40 分钟的音频。作为基于 LLM 的模型,它天然适用于基于音频内容的问答和摘要任务,不需要将 ASR 系统与语言模型串联。此外,它还支持根据用户的口头意图执行后端函数、工作流或 API 调用。像 Mistral 的其他模型一样,Voxtral 原生支持多语言和自动语言检测,而且后一个功能针对欧洲语言做了优化。不用说,Voxtral 保留了其基础模型的纯文本能力,可以作为纯文本 LLM 使用。

 

Mistral 声称,在仅转录用例中,其模型在成本和性能方面优于 OpenAI Whisper、ElevenLabs Scribe 和 Gemini 2.5 Flash 等其他解决方案。

 

Voxtral 全面超越了目前领先的开源语音转录模型 Whisper large-v3。在所有任务中,它都击败了 GPT-4o mini Transcribe 和 Gemini 2.5 Flash,并在英语短文和 Mozilla Common Voice 上取得了一流的成绩,超越了 ElevenLabs Scribe,展示了其强大的多语言能力。

 

在音频理解方面,凭借其 LLM 基础,Voxtral 可以直接从语音中回答问题。与其他基于 LLM 的语音识别模型相比,这是一种与众不同的方法。例如,NVIDIA NeMo Canary-Qwen-2.5BIBM的Granite Speech有两种不同的模式 ASR 和 LLM,可以在不同的阶段组合使用,例如使用 LLM 来总结 ASR 步骤生成的文本输出。

 

根据 Mistral 自己的基准测试,Voxtral Small 在多个任务中可与 GPT-4o-mini 和 Gemini 2.5 Flash 相媲美,并在语音翻译方面超越了两者。

 

除了提供 Voxtral 下载用于本地部署或通过 API 使用外,Mistral 还提供了专门针对企业客户的额外功能,包括支持生产规模的私有部署、特定领域的微调和高级用例,如说话人识别、情感检测、对话分割等。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/07/mistral-voxtral-audio-speech-llm/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!