开源项目 18小时前 158 阅读 0 评论

小红书开源语音合成项目:FireRedTTS-2!专注于多说话人对话生成

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

近日,小红书开源了一款语音合成项目:FireRedTTS-2,专注于多说话人对话生成!

目前支持4个说话人的3分钟对话生成,可以通过扩展训练语料进一步延长对话时长和增加说话人数量。

在博客生成和聊天机器人集成方面表现出色,提供稳定、自然的语音输出,可以根据上下文生成富有情感的语音。

主要功能

长对话语音生成:支持4个说话人的3分钟对话生成,可扩展训练语料以增加对话时长和说话人数量。

多语言支持:涵盖英语、中文、日语、韩语、法语、德语、俄语等,具备零样本跨语言及语码转换语音克隆能力。

低延迟与高保真:在L20 GPU环境下,首次数据包延迟低至140毫秒,适合实时交互场景,同时保证高质量音频输出。

稳定语音输出:在独白与对话测试中,生成语音与目标说话人相似度高,语音识别错误率低,能维持稳定的音质与韵律。

随机音色生成:可生成随机特征的语音,适用于构建语音识别模型训练数据或为语音交互系统提供多样化测试素材。

情感韵律生成:在聊天机器人集成中,能根据上下文生成富有情感的语音,提升交互体验。

实时流式生成:采用12.5Hz流式语音分词器,支持高保真流式解码,适合实时应用。

技术原理

12.5Hz流式语音分词器:以低帧率运行,能编码更丰富的语义信息,缩短语音序列,稳定文本到分词的建模,支持高保真流式解码,适合实时应用。

双Transformer架构:采用文本-语音交错格式,将标记了说话人的文本与对齐的语音分词按时间顺序连接起来,用双Transformer进行建模。一个大型的解码器仅Transformer预测第一层的分词,而一个较小的Transformer完成后续层。

多语言建模:通过多语言预训练,支持多种语言的语音生成,具备零样本跨语言及语码转换语音克隆能力,能适应不同语言的对话场景。

低延迟设计:优化了模型架构和推理流程,确保在L20 GPU环境下,首次数据包延迟可低至140毫秒,满足实时交互的需求。

长对话支持:通过高效的分词和建模机制,支持4个说话人的3分钟对话生成,并可通过扩展训练语料进一步延长对话时长和增加说话人数量。

上下文感知韵律:在生成语音时,能够根据上下文信息调整韵律和情感,使语音输出更加自然和富有表现力。

应用场景

播客生成:能生成多说话人的播客内容,支持多种语言,提供稳定且自然的语音输出,适合制作多语言播客节目。

聊天机器人:可以集成到聊天框架中,根据上下文生成富有情感的语音,提升交互体验,适用于各种聊天机器人应用。

语音克隆:支持零样本跨语言及语码转换语音克隆,能生成与目标说话人相似度高的语音,适用于语音克隆相关应用。

开源地址:
https://github.com/FireRedTeam/FireRedTTS2

项目官网:
https://fireredteam.github.io/demos/firered_tts_2/

#AI开源项目推荐##github##AI技术##AI语音生成#开源TTS##小红书开源

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!