当前位置：首页 > news >正文

语音合成之六端到端TTS模型的演进

news 来源：原创 2025/4/26 4:09:48

端到端TTS模型的演进

引言
Tacotron：奠基之作
FastSpeech：解决效率瓶颈
VITS：实现高保真和富有表现力的语音
SparkTTS：利用LLM实现高效可控的TTS
Cosyvoice：一种可扩展的多语种TTS方法
端到端TTS模型的演进与未来方向

引言

传统的TTS系统通常由多个独立阶段组成，例如文本分析前端、声学模型和音频合成模块。构建这些组件往往需要大量的领域专业知识，并且各个模块之间的复杂依赖关系可能导致系统脆弱性增加。这种复杂性以及对专业知识的依赖促使研究人员转向端到端TTS模型的开发。

近年来，深度学习技术的飞速发展极大地推动了TTS领域的发展。深度神经网络强大的建模能力使得端到端TTS系统能够直接从配对的文本和音频数据中学习复杂的映射关系，无需人工设计特征或复杂的中间步骤。端到端模型通过简化TTS流程，降低了系统的复杂性以及对领域专业知识的需求。

在追求高质量语音合成的同时，如何有效地训练模型并提高其推理效率，成为了端到端TTS系统发展过程中需要重点关注的问题。高质量的语音合成通常需要更复杂的模型和大量的训练数据，这可能会牺牲训练和推理的效率。反之，为了提高效率而采用的模型可能在语音的自然度和表现力方面有所妥协。因此，如何在生成质量和训练效率之间取得平衡，是端到端TTS模型研究的关键挑战。

在这里插入图片描述

Tacotron：奠基之作

Tacotron模型作为端到端TTS领域的开创性工作，为后续研究奠定了基础。最初的Tacotron（通常称为Tacotron 1）采用了编码器-解码器结构，并引入了注意力机制。编码器部分负责将输入的字符序列转化为一系列隐藏表示。注意力机制是Tacotron模型的一项关键创新，它使得解码器在生成每个音频帧时，能够自动地聚焦于输入文本序列的相关部分，从而学习文本特征与相应音频帧之间的对齐关系。

解码器则基于编码器的输出和注意力机制提供的上下文信息，逐帧生成频谱图。为了从生成的频谱图中合成最终的语音波形，Tacotron 1采用了Griffin-Lim算法。Tacotron 1的后处理网络中使用了CBHG模块（卷积滤波器组、高速公路网络、双向GRU循环神经网络），该模块的设计灵感来源于机器翻译领域，能够有效地从序列中提取鲁棒的特征表示。CBHG模块通过卷积滤波器捕获局部和上下文信息，并通过高速公路网络和双向GRU进一步提取高层序列特征。

Tacotron 2作为Tacotron 1的改进版本，在架构上进行了一些重要的调整。Tacotron 2将编码器和解码器中的CBHG模块和门控循环单元（GRU）替换为更简单的卷积层和长短期记忆网络（LSTM）。这种简化旨在减少模型的复杂性和参数数量，同时保持或提升性能。此外，Tacotron 2的目标输出从线性频谱图改为梅尔频谱图。

梅尔频谱图在感知上更贴近人类听觉系统。为了生成更高质量的音频波形，Tacotron 2集成了WaveNet声码器（或者后来的WaveGlow）。与Griffin-Lim算法相比，神经声码器能够合成更自然、更高保真度的语音。Tacotron 2还采用了位置敏感注意力机制，该机制在计算注意力权重时考虑了先前时间步的注意力对齐信息，从而提高了文本和语音之间的对齐质量。与Tacotron 1不同，Tacotron 2不再使用“缩减因子”，即解码器的每一步对应生成一个频谱帧。

Tacotron模型的主要特点在于其端到端的学习方式，能够直接从文本输入生成语音输出。Tacotron模型能够学习到自然的韵律和语调。在性能方面，Tacotron 1在美国英语上取得了3.82的平均意见得分（MOS），而Tacotron 2则达到了接近人类录音的语音质量。

尽管Tacotron模型取得了显著的成功，但也存在一些局限性。由于解码器的自回归特性，Tacotron模型的推理速度相对较慢。训练注意力机制也具有一定的挑战性，可能导致对齐失败，进而出现跳词或重复词等问题。此外，Tacotron模型在处理复杂词汇和领域外文本时可能会遇到困难。原始的Tacotron模型对语音参数（如语速或情感）的控制能力有限。最后，Tacotron模型依赖于一个单独的声码器（WaveNet或WaveGlow），这增加了计算成本。

FastSpeech：解决效率瓶颈

为了解决Tacotron模型推理速度慢的问题，FastSpeech模型被提出。FastSpeech采用了完全前馈的Transformer网络结构，能够并行生成梅尔频谱图，从而显著提高了推理速度。

FastSpeech的编码器和解码器都由若干个前馈Transformer（FFT）模块堆叠而成。每个FFT模块包含一个自注意力机制和一个一维卷积网络。与Tacotron模型不同，FastSpeech去除了文本和语音之间的注意力机制，取而代之的是一个基于时长预测器的长度调节器。时长预测器用于预测每个音素的持续时间，长度调节器则根据预测的时长将音素的隐藏序列扩展到与梅尔频谱图序列的长度相匹配，从而实现并行生成。

FastSpeech相对于Tacotron模型在速度和鲁棒性方面都有显著的提升。在梅尔频谱图生成速度方面，FastSpeech比自回归的Transformer TTS模型快了高达270倍，端到端的语音合成速度也提升了38倍。

由于采用了显式的时长建模，FastSpeech几乎消除了跳词和重复词的问题，提高了合成的鲁棒性。在语音质量方面，FastSpeech能够达到与Tacotron相当甚至更好的水平。此外，通过长度调节器，FastSpeech还能够灵活地控制语速和韵律。

FastSpeech的训练流程依赖于一个自回归的教师模型（例如Tacotron 2）来预测音素时长并进行知识蒸馏。首先，训练一个教师模型，然后从教师模型的注意力对齐中提取音素的持续时间，并使用教师模型生成的梅尔频谱图作为目标来训练FastSpeech模型及其时长预测器。知识蒸馏有助于简化非自回归FastSpeech模型的学习任务。

FastSpeech 2作为FastSpeech的改进版本，进一步提升了性能。FastSpeech 2不再依赖教师模型的输出，而是直接使用真实的梅尔频谱图作为训练目标。这简化了训练流程，并避免了因使用教师模型而可能导致的信息损失。

此外，FastSpeech 2引入了音高和能量预测器，从而能够更好地建模语音的韵律特征，生成更具表现力的语音。FastSpeech 2还采用了通过强制对齐获得的更准确的音素时长信息，进一步提高了合成语音的质量。与FastSpeech相比，FastSpeech 2的训练速度也更快。

VITS：实现高保真和富有表现力的语音

VITS模型是一种端到端的TTS模型，它结合了变分自编码器（VAE）、归一化流和对抗学习等先进技术，旨在生成高保真且富有表现力的语音。

VITS模型由后验编码器、解码器和条件先验组成。VAE的结构使得模型能够学习到以文本为条件的语音的潜在表示。VITS模型中包含一个基于Transformer的文本编码器和多个耦合层的流式模块，用于预测频谱图。归一化流技术允许模型生成复杂的频谱图分布。VITS模型使用HiFi-GAN声码器来生成高保真度的语音波形。HiFi-GAN是一种先进的神经声码器，以其生成自然逼真的音频而闻名。

为了生成具有不同节奏的语音，VITS模型还包含一个随机时长预测器。与确定性时长预测不同，随机时长预测能够反映人类语音的自然变化。VITS模型采用单调对齐搜索（Monotonic Alignment Search, MAS）来学习文本到音频的对齐，而无需外部对齐标注。MAS允许模型直接从数据中学习对齐关系，简化了训练过程。

VITS模型通过端到端的方式联合训练所有组件（编码器、解码器、声码器）。这种联合训练能够更好地优化整个系统。VITS模型对潜在变量的不确定性进行建模，这有助于捕捉语音中固有的变化性。对抗训练过程通过使用判别器来区分真实语音和生成语音，从而提高输出的真实感。

VITS模型的架构结合了GlowTTS的编码器和HiFi-GAN的声码器。VITS模型具备高质量的语音生成能力，在LJ Speech等数据集上取得了与真实录音相当的平均意见得分（MOS），并且能够生成富有表现力的、具有不同节奏和语调的语音。

SparkTTS：利用LLM实现高效可控的TTS

SparkTTS模型是一种利用大型语言模型（LLM）进行高效且可控的TTS的新型系统。SparkTTS采用了单流编解码器架构（BiCodec），该架构将语音分解为语义标记（低比特率，包含语言内容）和全局标记（固定长度，包含说话人属性）。这种分离使得对语音的不同方面进行更有效的表示和操作成为可能。

SparkTTS集成了Qwen2.5等大型语言模型作为其骨干网络，并通过微调使LLM具备TTS能力。该模型采用了链式思考（Chain-of-Thought, CoT）生成方法来实现属性控制，提供了一个用于粗粒度（性别、风格）和细粒度（音高、语速）属性的分层控制系统。SparkTTS能够直接从LLM预测的代码中重建音频，无需单独的声学特征生成模型，从而简化了架构并提高了效率。

SparkTTS采用低比特率的语义标记进行高效编码。其解码器比骨干网络小得多，有助于实现低延迟生成。该模型还支持Nvidia Triton Inference Serving和TensorRT-LLM，以加速推理。在性能指标方面，Spark-TTS-0.5B模型的名称暗示了其参数规模约为0.5亿。在L20 GPU上，当并发数为1时，其推理延迟约为876毫秒，实时因子（Real-Time Factor, RTF）为0.1362 ，表明其推理速度相对较快。

SparkTTS具备零样本语音克隆和跨语言合成能力，即使没有特定说话人的训练数据，也能复制其声音，并支持中文和英文，能够进行跨语言的语音克隆。这是SparkTTS的一个关键优势，表明其能够很好地泛化到未见过的声音和语言。

Cosyvoice：一种可扩展的多语种TTS方法

Cosyvoice模型是一种基于监督语义标记的多语种零样本TTS合成器。与现有的无监督标记相比，使用监督标记旨在提高语音克隆的内容一致性和说话人相似度。

Cosyvoice由一个用于文本到标记生成的LLM和一个用于标记到语音合成的条件流匹配模型组成。Cosyvoice还融入了x-vector来将语音建模分离为语义、说话人和韵律三个部分。它通过分类器自由引导和余弦调度器等技术优化了流匹配过程。

Cosyvoice在多语种和零样本TTS方面采用了独特的方法，是一个可扩展的多语种文本到语音合成器，支持包括中文、英文、日语、韩语以及各种汉语方言（粤语、四川话、上海话、天津话、武汉话等）在内的多种语言。其关键特性是零样本上下文学习能力，仅需一段简短的参考语音样本即可复制任何声音，并且能够进行跨语言和混合语言的零样本语音克隆。

与其他端到端TTS模型相比，Cosyvoice在内容一致性方面表现相当，并在说话人相似度方面表现更优。与Cosy系列模型（指早期版本或相关模型）相比，Cosyvoice在韵律和情感方面表现显著更好。Cosyvoice 2旨在以低延迟在流式模式下实现接近人类水平的自然度。

在性能指标方面，Cosyvoice 2报告的MOS评分为5.53，与商业化的大型语音合成模型相当。它在Seed-TTS评估集的硬测试集上实现了最低的字错误率。在流式模式下，首次合成数据包的延迟低至150毫秒。

为了更清晰地理解不同端到端TTS模型之间的差异，下表对Tacotron、FastSpeech、VITS、SparkTTS和Cosyvoice等模型在架构、关键特性、优化目标、优势、局限性以及典型应用场景等方面进行了比较。

表 1: 端到端TTS模型比较

模型	架构	关键特性	优化目标	优势	局限性	典型应用场景
Tacotron	编码器-解码器（RNN/LSTM，v1中含CBHG），注意力机制	梅尔/线性频谱图，WaveNet/WaveGlow声码器	高质量语音合成	自然的韵律和语调，端到端学习	推理速度慢，注意力机制可能失效	语音助手
FastSpeech	前馈Transformer	长度调节器，时长预测器	快速推理，鲁棒性，可控性	并行生成，推理速度快，几乎消除跳词和重复词	训练依赖教师模型	实时应用
VITS	VAE，归一化流，对抗学习	HiFi-GAN声码器，随机时长预测器，MAS对齐	高保真度，富有表现力的语音	音质高，表现力强，端到端训练	模型复杂	研究，高质量应用
SparkTTS	单流BiCodec，LLM骨干	CoT控制，解耦语音标记	高效编码，快速推理，可控性	零样本语音克隆，跨语言合成	新兴模型，仍在发展	可定制语音生成
Cosyvoice	监督语义标记，LLM，流匹配	x-vector，条件流匹配	多语种，零样本语音克隆，流式合成	多语种支持，零样本语音克隆，流式推理	依赖高质量数据	多语种应用

从架构设计上看，Tacotron系列采用了循环神经网络（RNN/LSTM）和注意力机制，而FastSpeech则转向了完全前馈的Transformer结构。VITS模型则是一种混合架构，结合了VAE、归一化流和对抗学习。SparkTTS和Cosyvoice则更侧重于利用大型语言模型，并在标记化和生成流程上有所创新。

在优化目标方面，FastSpeech和SparkTTS主要关注推理速度和效率，而VITS和Cosyvoice则更侧重于提高语音的质量和表现力。Tacotron 2则试图在质量和效率之间取得平衡。性能指标方面，MOS评分常用于衡量语音的自然度，而实时因子和延迟则反映了模型的推理速度。鲁棒性和模型大小也是重要的评估指标。每个模型都有其独特的优势和局限性，因此在实际应用中选择合适的模型需要根据具体的使用场景和需求进行权衡。

端到端TTS模型的演进与未来方向

端到端TTS模型的发展历程可以追溯到2017年提出的Tacotron模型。Tacotron作为首个成功的端到端TTS模型，为后续研究奠定了基础。2019年，FastSpeech的出现解决了自回归模型推理速度慢的瓶颈。2021年，VITS通过引入先进的生成技术，将语音质量推向了新的高度。近年来，基于大型语言模型的TTS模型，如2025年提出的SparkTTS ，以及侧重于可扩展性和多语种能力的Cosyvoice（2024年），相继涌现。

未来，端到端TTS模型的研究可能会朝着以下几个方向发展：进一步提高推理速度和效率，以满足更多实时应用的需求；增强合成语音的自然度和表现力，包括更好地控制情感和语速；开发更鲁棒的模型，能够处理嘈杂环境和不同的说话条件；在低资源语言TTS和跨语言语音克隆方面取得更多进展；探索新的架构和训练技术，例如扩散模型和更高级的LLM应用；以及提高TTS系统的可控性和个性化程度。