AI热点 4月前 130 阅读 0 评论

AI 唱中文歌,终于不怪了!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

就在刚刚,昆仑万维发布了 Mureka V7.5,一个专门为中文升级的音乐大模型。



老实说,这两年 AI 做音乐已经卷出了天际——Suno、Udio、Riffusion,一个比一个能唱,特别是英文歌,人声真假难辨,节奏旋律也都挑不出太大毛病。


所以当我看到 Mureka 这个更新的时候,原本也没太在意。直到我注意到一件事:


和很多模型强调“多语言支持”“风格多样化”不同,Mureka 这次反而把重点放在了「中文音乐表现」这件事上。


这一下我就来了兴趣。这或许是第一次,有人真的把「中文歌」放在了舞台中央,作为一个目标去打磨。


实测:听起来到底怎么样?


光有情怀可不行,我们上手实测一下看看实力。


老规矩先放网址:


https://www.mureka.ai(需要魔法)


打开「创作音乐」页面,中间栏会看到有三种生成模式:「简单」、「高级」、「音频编辑」


它们的区别大概可以这样理解:


  • 简单模式,适合第一次用 AI 写歌的人。你可以像和朋友聊天一样,把创作想法用自然语言说出来,比如“我想写一首温柔又有点心酸的民谣”,或者“想模仿周杰伦的《晴天》”。它就能自动理解你说的情绪、题材、参考风格,帮你完成整首歌。


  • 高级模式,更像是给“熟练创作者”的 Playground。你可以精细控制歌词结构、段落内容,还能选择参考歌曲、指定演唱人声、限制歌曲风格……就像你在和一个专业制作人配合,构建你想要的音乐世界。


  • 音频编辑,是整个工具链里最像“DAW(数字音频工作站)”的部分。它目前支持:乐句级别的重新生成延长歌曲时长乐器分轨精确裁剪。非常适合已经生成完成但还想再精修的音乐人。


为了给大家做一个完整的演示,我这里选择的是高级模式。


生成流程也很简单,跟官方的三步法基本一致:


  • 第一步,写歌词。你可以直接粘贴自己写的,也可以用系统自动生成一份草稿再修改。


  • 第二步,选择风格,可以搭配你想要的情绪关键词,也可以上传一段旋律或参考音频作为提示。


  • 第三步,点击“创作”按钮,然后稍等几分钟,你的歌就会生成。



来说几个我们实测时印象最深的 case。


比如说,民谣。


我们写了首《凌晨两点的火车站》,送给那些提着行李、还没想好下一站的人。旋律轻快得像夜风掠过站台,歌词一开口就带点温度。我们把它丢进市面上能找到的 AI 唱歌模型里来回试,最后还是这版听着最像深夜有个人在给你清唱。




而换成 R&B,整首歌的氛围立马变了。




好甜,听着歌感觉自己已经恋爱了。


再切到摇滚,前奏电吉他直接炸开,整个编曲冲得很猛,人声情绪也激烈许多。



为什么它唱得不“AI”?


说真的,整体的输出结果超出我的预期。我专门去翻了下他的技术报告。


这张图,是四个主流模型在「中文歌曲」生成场景下的主观测评分数。统一输入歌词和提示,每个模型各出四首歌,听众盲听投票。



Mureka V7.5 在两个维度都拿下第一:


  • 歌曲质量(Song Quality)得票:34.8%,高于 Suno(27.0%)和 Riffusion(28.9%);


  • 提示契合度(Prompt Follow)得票:45.2%,远高于 Suno(27.0%)、Udio(15.9%)。


这是目前唯一一个能在「旋律打动人」和「内容贴合主题」两个方面同时拉开差距的模型。


那它为什么能做到?


因为 Mureka V7.5 在底层做了三件事:


  • 第一,他们在构建模型时并不把音乐当成纯粹的音符序列,而是把它放回了文化语境和语言风格中去理解。整个模型架构围绕中文语境重新训练,从传统民歌、戏曲,到流行金曲和民谣,系统性地捕捉了中文音乐的语义结构和情感走向。


  • 第二,在演唱层面,他们引入了一个关键技术:ASR 技术反向建模。


  • 本质上,是通过对大量真实中文演唱数据的识别和分析,让模型“知道”哪一句该换气,哪一句该断句,哪一段要往后拖一点,甚至模仿真实歌手的唱法细节,比如气音、顿挫、连读、转音。这让 Mureka 生成出来的歌,不只是音色像,而是唱法、节奏、气感都接近真人演唱逻辑。


  • 第三,它把“听起来像人唱”这件事变成了训练目标之一。


  • 它在模型优化过程中引入了人类主观听感评分机制:不是机器评估“生成质量”,而是人来评“像不像人唱”。这使得模型会主动规避那些容易暴露 AI 痕迹的音色特征和情绪处理方式。


我们拿 Suno V4.5 和 Mureka V7.5 对比一下你就懂了。



你听到的自然,是因为它懂得“适可而止”,知道什么时候要留白,什么时候不用炫技。


MoE-TTS,让声音真正听命于语言


在 Mureka V7.5 的发布里,除了音乐模型本身,昆仑万维还同步发布了一个重要的语音合成技术:MoE-TTS(Mixture-of-Experts Text-to-Speech)。


而它非常重要。可以说,MoE-TTS 是支撑 Mureka V7.5 能唱出“更像人”的关键语音底座之一。


MoE-TTS 的最大创新在于,它将语音控制从传统的标签式模板(如情感=高兴、年龄=青年)彻底解放,转向了开放式自然语言建模。用户不再需要在预设参数里选择,而是可以直接用日常语言来描述目标声音,比如“清澈的少年音带磁性尾韵”这类复杂的、多维度的感知描述。


这背后,是一个由大语言模型(LLM)驱动的语义解析系统。它能够将自然语言拆解为一组高维表达向量,交由多个语音专家模块(Speech Expert Modules)分别建模语音风格、节奏、语气、发音等维度,并最终通过模态路由器(Modality Router)动态聚合输出结果,实现了真正意义上的“按语言思维驱动声音表现”。


从评测结果来看,MoE-TTS 在两类任务上都表现出显著优势:



  • In-domain 场景下(用户输入的描述语句来自训练语料相似分布),MoE-TTS 与 ElevenLabs、MiniMax 相比,在风格贴合度(SEA)、语音质量(SQ)等核心指标上均保持领先,整体评分几乎稳定在 4 分以上。


  • Out-of-domain 场景下(输入的语义描述从未在训练集中出现过,如比喻、隐喻、复合角色设定等),MoE-TTS 的泛化能力则更为突出,能更好还原语义意图与风格细节。


我们可以拿一个 demo 更直观地感受一下:


prompt:美国男演员,带有纽约口音,多才多艺,表达能力强,语速富有活力,充满魅力与感染力,吸引着听众的注意


Mureka V7.5:



不仅实现了美式口音的模拟,语调起伏和节奏变化也精准贴合“吸引听众”这一目标语义。


11labs:



音色平淡,缺乏应有的节奏张力。


MiniMax:



未展现出“个性表达”的能力,缺乏对 prompt 的风格理解。


技术架构上,MoE-TTS 抛弃了传统“一锅炖”式的统一建模逻辑,改为文本与语音解耦 + 多专家并行建模策略。在 Transformer 框架下,各语音专家独立聚焦不同表达维度,参数分别优化,避免模态间互相干扰,显著提升了对模糊、比喻、情绪迁移等复杂语言的理解力。


而且,这种“冻结文本语义 + 多路语音专家”的结构还带来了一个重要收益 —— 语义保持能力更强。模型在微调过程中不会破坏原有的语言表示,从而实现跨模态语义迁移时的“知识零损失”,这是传统 TTS 系统很难做到的。


MoE-TTS 并非孤立成果,而是昆仑万维在「SkyWork AI 技术发布周」上的压轴一作,也是一整套多模态技术体系的收官拼图。


技术之外,MoE-TTS 真正打开的是一片应用空间。它不仅服务于 Mureka 的音乐生成,也天然适配以下这些典型场景:


  • 情绪播报(比如哀伤语气播读新闻讣告)


  • 个性化阅读(为不同角色定制声音风格)


  • AI 对话角色建模(同一个语义,不同身份说法截然不同)


  • 影视配音 / 游戏语音包(可写即合成,按剧情语义变声)


  • 无障碍阅读(定制特定情绪、性别、年龄的朗读音)


Mureka O1 模型与 Mureka V6 模型自 3 月底发布以来,收获了全球用户的广泛好评,新增注册用户近 300 万。


自 8 月 11 日起,他们连续五天推出涵盖视频生成(SkyReels-A3)、世界模拟(Matrix-Game 2.0)、统一多模态模型(Skywork UniPic 2.0)、智能体(Deep Research Agent v2)等关键方向的模型成果,持续推进具备生成、理解与交互能力的多模态架构,同时延续了一贯强调研发开放性与协作共享的技术理念。


说到底,MoE-TTS 并不是为了好听而好听。它更像是昆仑万维在做中文音乐这件事上的一个底层工程。


因为你只要认真做一首中文歌就会发现——光有旋律没用,AI 唱得再准、节奏再对,如果咬字不地道、语气不到位、情绪不贴脸,那首歌听起来就是“有点怪”。


而这个“怪”,不是靠调节 EQ 或增加混响能解决的,它是语言与文化之间天然的隔阂。


AI 在大多数赛道卷的是“效率”“准确率”“生成力”。但音乐赛道不一样,它卷的是“谁的文化留下来”。


如果没有人愿意为中文音乐单独修一条路,那么在未来的 AI 世界里,我们可能连一首像样的歌都没有资格被记住。


这一次,Mureka V7.5 是在拉着中文音乐往前站了一步。它没有去迎合所有语言、风格、市场,而是选择把注意力,扎扎实实地放在了中文音乐身上。


你能听见它唱得越来越像我们。那不是因为模型聪明了,而是因为,终于有一群人,在算力之外,愿意花时间、花心思,把中文的旋律、情绪、韵脚和呼吸,一点点教给 AI。


有些旋律,真的只有中文能唱。


也许,有些歌,AI 也该学会,闭上眼睛去唱


文章来自于微信公众号“夕小瑶科技说”,作者是“夕小瑶编辑部”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!