新兴开源音频与音乐大模型盘点

随着多模态大模型的飞速发展，开源社区在语音合成（TTS）、音乐生成、语音识别（ASR）以及歌声合成（SVS）领域涌现出了一批令人惊艳的前沿模型。本文为您总结了近期备受关注的最新开源音频大模型矩阵及源码地址。

🗣️ 文本到语音合成 (TTS)

CosyVoice (阿里 FunAudioLLM)

开源地址: 👉 GitHub - FunAudioLLM/CosyVoice
简介: 极其出色的多语种超低延迟（最低 150ms）流式大语言语音生成模型，擅长跨语种的零样本声音克隆与情感迁移。

F5-TTS

开源地址: 👉 GitHub - SWivid/F5-TTS
简介: 基于 DiT（Diffusion Transformer）架构的非自回归零样本 TTS 系统。它取消了传统音素对齐的繁琐流程，使用流式匹配（Flow Matching），生成速度快，甚至原生支持中英混写（Code-switching）的高音质发音。

Fish-Speech

开源地址: 👉 GitHub - fishaudio/fish-speech
简介: 业界目前最为强悍的高保真度多语种 TTS 之一。能在仅仅提供十秒左右的参考音频下极速克隆目标人物的音色和情感习惯，且支持通过文本标签（如 [laugh] 或 [whisper]）精准控制句间的发音情感。

IndexTTS & IndexTTS2

开源地址: 👉 GitHub - IndexKishin/IndexTTS (组织开源主页)
简介: 新一代高自然度、支持毫秒级重音与情绪控制的自回归零样本 TTS 系统。它首创了“极高精度的时长控制”与“音色-情感解耦”能力——可基于大语言模型用自然语言指定情绪（如“大笑地朗读”），并在保持复刻音色不变的前提下完成演绎，是极佳的广播广播剧和播客生成方案。

Qwen3-TTS / Qwen-Audio

开源地址: 👉 GitHub - QwenLM/Qwen-Audio
简介: 由阿里云通义千问团队研发。在语音生成表现上具有极高保真度与强烈的表现力，原生支持零样本声音克隆与声音设计。

MOSS-TTS 系列

开源地址: 👉 GitHub - OpenMOSS/MOSS-TTS
简介: 覆盖极广的语音生成基础模型家族，它的旗舰版音质出挑，而 Nano 版本更是支持在普通 CPU 硬件上实时快速运算。

🎤 歌声合成与人声控制 (SVS)

soulX-Singer

开源搜索地址: 👉 Hugging Face - soulX-Singer
简介: 一款主打零样本歌声合成（Zero-shot SVS）的高保真大模型。不再需要漫长微调，只需一小段干声参考音频，结合生成的旋律线条（F0）或乐谱，便能让新声音毫无违和感地为你唱歌。

🎶 音乐生成大模型 (Music Generation)

ACE-Step

开源地址: 👉 Hugging Face - ACE-Step
简介: 致力于在消费级硬件上依然能高速运行的商业级音乐生成大模型。集成并改良了深层压缩自编码器（DCAE），在编曲能力和从头生成音乐、人声音乐混响上表现极佳。

heartMuLa

开源搜索地址: 👉 Hugging Face - heartMuLa
简介: 规模庞大的音乐生成底座，自带超精细的 HeartCodec 拆解。它可以极其稳定地根据指定的歌词生成连续的大段落歌曲，是长音频拼接创作的首选底座。

🎧 语音转文本与识别 (ASR)

VibeVoice-ASR

开源地址: 👉 Hugging Face - VibeVoice-ASR
简介: 微软开源的突破性语音聚合处理模型。突破了极短切片的限制，能够单次直接吞吐最高 60 分钟的漫长音频，并且一步到位全部结构化输出：谁说的（说话人分离聚类）、说了什么（语音转文本）、什么时候说的（精准时间戳）。

选型总结:

极客发烧友流 / 有声书制作：优先使用 Fish-Speech 和 F5-TTS，如果你对情感要求严苛到需要指定“愤怒”或“笑意”，加入 IndexTTS2 配合。
商用开发和端侧部署：推荐阿里巴巴的 CosyVoice 或支持 CPU 上计算的 MOSS-TTS Nano。
字幕组 / 漫长会议提炼：毫不犹豫选用 VibeVoice-ASR 释放双手。