语音合成之七语音克隆技术突破:从VALL-E到SparkTTS,如何解决音色保真与清晰度的矛盾?
从VALL-E到SparkTTS,如何解决音色保真与清晰度的矛盾?
- 引言
- 语音克隆技术发展史
- YourTTS:深入剖析架构与技术
- VALL-E:揭秘神经编解码语言模型
- MaskGCT
- SparkTTS:利用 LLM 实现高效且可控的语音合成
- 特征解耦+生成式模型
- 特征解耦技术实现
- 生成式模型优化策略
- 效果对比分析:性能与评估
- 未来展望:小样本和零样本语音克隆的未来
引言
语音克隆在娱乐、无障碍辅助、内容创作和个性化应用等领域展现出巨大的潜力 。然而,长久以来,如何才能在精确复制说话者音色的同时,确保合成语音的清晰度和自然度,一直是该领域面临的核心挑战。传统的语音克隆方法往往难以在这两者之间取得理想的平衡 。
小样本和零样本学习技术的出现,为解决这一难题带来了革命性的进展 。这些先进的技术仅需极少量的目标说话人音频数据,甚至在没有任何目标说话人训练数据的情况下,就能实现高质量的语音克隆 。这为克隆那些录音资料匮乏的声音提供了可能 。
本文将深入探讨小样本和零样本语音克隆领域的几项关键突破,重点介绍并分析三种具有代表性的模型:YourTTS、VALL-E 和 SparkTTS。
语音克隆技术发展史
1998 年,加州大学伯克利分校的研究人员发布了首个语音克隆软件 。2010 年,基于深度学习的语音克隆系统进一步推动了该技术的发展 。2016 年,谷歌 DeepMind 推出的 WaveNet 模型是首批由人工智能驱动的新一代语音克隆软件之一,为后来的语音克隆技术奠定了基础 。大约在 2020 年,语音克隆技术首次实现商业化 。
早期的语音克隆系统通常需要大量的目标说话人录音数据 。为了克服这一限制,研究人员开始探索更高效的数据利用方法。2020 年,麻省理工学院的一位研究人员展示了一种数据高效的音频深度伪造生成方法,仅需 15 秒的训练数据 。零样本语音克隆的概念随之出现,旨在仅使用目标说话人的简短音频样本(几秒钟)就能复制其声音 。
YourTTS、VALL-E 和 SparkTTS 等模型正是这一发展趋势下的代表性成果,它们能够在极少数据甚至零数据的情况下,实现高质量的语音克隆 。语音克隆技术的发展历程清晰地表明,研究方向正朝着减少数据依赖性和提高合成语音的自然度和相似度迈进。
早期技术的局限性促使人们不断创新,最终催生了如今先进的深度学习和小样本/零样本学习方法。即从“数据驱动”到“特征解耦+生成式模型”,突破传统数据依赖瓶颈。这种演变反映了人工智能领域更广泛的趋势,即开发能够在数据稀疏的情况下有效学习和泛化的模型,这对于许多实际应用至关重要。
YourTTS:深入剖析架构与技术
YourTTS 模型建立在 VITS(Variational Inference for Text-to-Speech)框架之上,并进行了多项创新性的修改,使其具备了多说话人和多语言处理能力 。其核心架构包括一个文本编码器、一个基于流的解码器、一个 HiFi-GAN 声码器以及一个后验编码器 。
与以往的一些工作不同,YourTTS 直接以原始文本作为输入,而非音素,这使得它更适用于那些缺乏高质量字音转换器的低资源语言 。在多语言训练方面,YourTTS 将 4 维可训练的语言嵌入向量连接到每个输入字符的嵌入向量中 。
YourTTS 实现零样本语音克隆和语音转换的关键在于对说话人嵌入向量的使用 。模型利用预训练的说话人编码器提取说话人嵌入向量,从而能够合成训练时未见过说话人的声音 。仅需几秒钟的参考音频,YourTTS 就能提取目标说话人的独特声学特征并生成相应的嵌入向量 。
YourTTS 支持零样本多说话人文本到语音合成和零样本语音转换等任务 。此外,通过微调,仅需约一分钟的音频数据,YourTTS 就能在声音相似度方面取得优异的表现 。
在平衡声音相似度和发音清晰度方面,YourTTS 做出了一些独特的设计选择。例如,直接使用原始文本输入简化了流程,但也可能在发音方面带来一些挑战 。有用户报告称,即使经过大量步骤的训练,YourTTS 仍然可能出现一些发音错误 。
为了提高生成语音的质量,YourTTS 对 VITS 架构进行了修改,例如增加了文本编码器的规模 。模型还采用了说话人一致性损失(SCL),旨在微调过程中提升声音的相似度 。然而,需要注意的是,原始论文中存在一个实现错误,导致 SCL 在部分实验中的效果受到影响 。
YourTTS 的训练过程是一个逐步进行的过程,首先在英语数据集(LJSpeech、VCTK)上进行训练,然后逐步加入葡萄牙语和法语数据集 。在多语言训练中,采用了加权随机抽样以确保每个语言的批次平衡 。
YourTTS 的设计理念在于利用多语言训练的优势,提升模型在零样本多说话人文本到语音合成和语音转换方面的性能,并降低对大量数据的依赖,尤其是在低资源语言的场景下。直接使用原始文本输入是一个重要的设计决策,旨在提高模型的适用性,使其能够处理更广泛的语言,而无需依赖于可能不存在或质量不高的外部音素资源。
VALL-E:揭秘神经编解码语言模型
VALL-E 是一种新颖的 TTS 框架,其核心是一个神经编解码语言模型 。它将 TTS 视为一个条件语言建模任务,使用来自神经音频编解码器(EnCodec)的离散代码作为中间表示,而不是传统的梅尔频谱图 。
VALL-E 的架构包含一个自回归(AR)的仅解码器语言模型和一个非自回归(NAR)的仅解码器语言模型 。该模型基于 Transformer 架构,Transformer 在自然语言处理任务中已被证明非常有效 。
VALL-E 的核心技术包括使用来自 EnCodec 的离散音频代码作为中间表示 。AR 模型预测第一级编解码器代码,而 NAR 模型预测后续代码 。Transformer 中的自注意力机制允许模型在处理每个元素时考虑整个输入序列 。VALL-E 展现出强大的上下文学习能力 。
VALL-E 仅需目标说话人 3 秒钟的录音作为声学提示,就能实现音色与风格迁移 。在语音自然度和说话人相似度方面,它显著优于以往的零样本 TTS 系统 。VALL-E 还能保留说话人的情感和声学环境 。
VALL-E 2 引入了重复感知采样和分组代码建模技术,以提高鲁棒性和效率 。在某些数据集上,VALL-E 2 实现了零样本 TTS 的人类水平性能 。音素提示有助于生成内容,而音频提示则有助于保持说话人相似度 。
VALL-E 使用**预训练的音频编解码器(EnCodec)**是一个关键的设计选择,它展示了利用现有模型来增强新模型性能的强大能力。将 TTS 视为对离散音频标记的语言建模任务,代表了该领域的一种范式转变,借鉴了语言模型在 NLP 中的成功经验,并可能为跨不同模态的生成式 AI 提供更统一的方法。
VALL-E 在一个庞大的数据集(60,000 小时)上进行训练,该数据集来自 LibriLight 语料库 。由于原始 LibriLight 数据仅包含音频,研究人员使用了一个语音识别模型来生成文本转录 。VALL-E 采用了混合训练方法,结合了监督学习和无监督学习 。
MaskGCT
MaskGCT(Masked Generative Cross-Transformer)是由Amphion团队提出的零样本语音克隆模型,其核心目标是解决音色保真度与发音清晰度之间的矛盾,同时支持多语言跨语种语音合成。与VALL-E、SparkTTS等模型相比,MaskGCT通过多级编解码与非自回归掩码生成,在音色迁移的稳定性与跨语言适应性上表现突出。
MaskGCT采用双阶段编解码架构,将语音生成分解为 语义编码 与 声学编码 两个独立阶段,实现内容与音色的解耦:
(1) 语义编解码器(Semantic Encoder-Decoder)
- 输入:原始语音波形 → 预处理(降噪、标准化)。
- 编码:使用 VQ-VAE(Vector Quantized Variational Autoencoder),将语音转换为离散语义标记(Discrete Tokens),捕捉语言内容(如音素、词汇)。
- 解码:语义标记通过 Vocos 声码器 重建为中间语义表示,保留语音的文本内容但剥离音色特征。
(2) 声学编解码器(Acoustic Encoder-Decoder)
- 编码:采用 残差向量量化(RVQ, Residual Vector Quantization),将语音波形压缩为 多层声学标记(如4层),分别编码音色、韵律、情感等特征。
- 解码:声学标记输入 非自回归Transformer,结合语义编码生成目标语音波形。
技术优势:
- 解耦彻底:语义编码专注“说了什么”,声学编码专注“如何说”(音色、语调)。
- 抗噪性强:RVQ的多层量化有效抑制输入音频中的噪声干扰。
非自回归掩码生成
MaskGCT的核心创新在于其生成阶段的 掩码预测机制,与传统自回归模型(逐帧生成)不同,它通过 并行生成 提升效率:
(1) 掩码生成流程
-
输入:文本 → 文本编码器 → 文本特征向量。
-
语义标记预测:
- 使用 Masked Transformer 随机遮蔽部分语义标记(如遮蔽率30%)。
- 模型基于上下文预测被遮蔽的标记,无需依赖文本-语音强制对齐。
-
声学标记生成:
- 以语义标记为条件,通过 Cross-Transformer 生成多层声学标记序列。
- 每层声学标记独立生成,避免自回归模型的误差累积。
(2) 优化策略
- 动态掩码比例:根据训练进度调整遮蔽率,提升模型泛化能力。
- 多任务学习:联合优化语义标记预测与声学标记生成,增强跨语言迁移稳定性。
SparkTTS:利用 LLM 实现高效且可控的语音合成
SparkTTS 是一种高效的、基于大型语言模型(LLM)的文本到语音合成模型 。其架构的核心是 BiCodec,一种独特的单流编解码器,它将语音分解为语义标记(语言内容)和全局标记(说话人属性)两种互补的标记类型 。
SparkTTS 集成了 Qwen2.5 大型语言模型作为其骨干 。该架构支持直接从 LLM 预测的代码重建音频,无需额外的声学特征生成模型 。
SparkTTS 能够实现高效的零样本中英文跨语言语音克隆,而无需针对目标说话人的特定训练数据 。它通过一种链式思考(CoT)的方法,提供粗粒度(性别、说话风格)和细粒度(音高、语速)的属性控制 。解耦的语音标记使得语音的表示和操作更加有效 。
SparkTTS 还支持跨语言和代码切换合成 。单流架构与解耦标记的结合,简化了传统的 TTS 系统,并可能增强了生成语音中语言内容和说话人属性之间的一致性。
SparkTTS 在 VoxBox 数据集上进行训练,该数据集包含 100,000 小时的带有各种属性标注的音频数据 。BiCodec 采用端到端的方式,使用生成对抗网络(GANs)进行训练 。训练过程分为两个阶段:首先训练语音标记器,然后训练 TTS 模型 。
集成像 Qwen2.5 这样强大的 LLM,可能是 SparkTTS 能够实现强大的零样本语音克隆能力的关键因素,使其能够在最少参考数据的情况下有效地处理内容和风格。SparkTTS 表明,大型语言模型在各种语音合成任务中发挥着越来越重要的作用,这预示着一个趋势,即利用 LLM 强大的语义理解和生成能力来开发更先进和可控的语音克隆技术。
特征解耦+生成式模型
特征解耦技术实现
- VALL-E:分层离散编码与上下文建模
-
音色与内容解耦:
VALL-E 使用 EnCodec 神经编解码器,将语音波形压缩为多层离散声学 token(8层量化器)。其中,低层 token 编码全局音色和说话人特征,高层 token 编码细节声学信息(如情感、环境)。通过分层 token 结构,模型将音色与内容解耦。 -
上下文条件控制:
在推理时,输入音素序列(内容)和 3 秒参考音频的声学 token(音色),通过 自回归(AR)与非自回归(NAR)语言模型 结合生成目标语音。AR 模型预测内容相关的低层 token,NAR 模型并行生成高层 token,兼顾生成速度与质量。
- SparkTTS:单流解耦与LLM驱动
-
BiCodec 双编码器:
将语音分解为 语义编码(记录“说了什么”)和 全局编码(包含音色、语调),通过向量量化(VQ)实现语义与风格的解耦。语义编码由 LLM(Qwen2.5)预测,全局编码从参考音频提取。 -
大语言模型融合:
直接利用 Qwen2.5 的文本理解能力生成语义编码,省去传统 TTS 的梅尔频谱生成步骤。LLM 输出的编码直接输入 BiCodec 解码器生成语音,实现端到端高效合成。
- MaskGCT:掩码生成与多级编解码
-
语义-声学双阶段解耦:
- 语音语义编解码器:通过 VQ-VAE 将语音转换为语义标记,捕捉语言内容;
- 语音声学编解码器:使用残差向量量化(RVQ)将波形压缩为多层声学标记,保留音色和韵律细节。
-
非自回归掩码生成:
文本到语义阶段,利用掩码生成 Transformer 预测语义标记,无需文本-语音对齐;语义到声学阶段,以语义标记为条件生成声学标记序列,通过 Vocos 解码器重建波形。
- YourTTS:
- 说话人编码器与自适应:
通过预训练的说话人编码器(如 ECAPA-TDNN)提取音色嵌入,与文本编码结合输入 Tacotron 生成梅尔频谱,再通过 WaveGlow 声码器合成语音。依赖少量样本微调以实现个性化克隆。
生成式模型优化策略
- 分层生成与采样优化
- VALL-E:采用 AR+NAR 分层生成,AR 模型逐帧生成低层 token 确保内容连贯性,NAR 模型并行生成高层 token 提升效率。通过温度采样控制生成多样性6。
- MaskGCT:使用 非自回归掩码生成 Transformer,通过随机掩码预测缺失 token,减少对对齐信息的依赖,提升跨语言合成的鲁棒性1。
- 数据驱动与模型预训练
- VALL-E:在 60K 小时英语语音(LibriLight)上预训练,增强对噪声和多样说话人的泛化能力6。
- SparkTTS:基于 VoxBox 数据集(10万小时中英文语音),标注性别、音高等属性,优化风格迁移的细粒度控制7。
- MaskGCT:使用 Emilia 多语言数据集,覆盖六种语言的高质量语音,支持跨语种音色迁移4。
- 效率与可控性增强
- SparkTTS:通过 单流解耦架构(BiCodec + LLM)简化流程,推理速度比传统模型快 3 倍,支持实时语音生成9。
- VALL-E:利用 上下文学习(In-context Learning),仅需 3 秒参考音频即可克隆音色,无需微调2。
- MaskGCT:提供 语音控制接口,允许用户编辑文本直接调整生成语音的长度、语速和情感,保持音色一致性10。
模型 | 特征解耦方法 | 生成式模型架构 | 核心优化策略 |
---|---|---|---|
VALL-E | EnCodec分层离散编码 | AR+NAR分层语言模型 | 大规模数据预训练、上下文学习 |
SparkTTS | BiCodec单流解耦 | LLM直接生成语音编码 | LLM驱动、高效单流程 |
MaskGCT | VQ-VAE+RVQ多级编解码 | 非自回归掩码生成Transformer | 掩码预测、多语言支持 |
YourTTS | 说话人编码器+文本编码融合 Tacotron+WaveGlow级联生成 | 小样本微调、说话人自适应 |
效果对比分析:性能与评估
评估语音克隆模型的性能通常采用一系列指标,包括主观评估和客观评估。常见的主观评估指标包括相似性平均意见得分(SMOS)、平均意见得分(MOS)和比较平均意见得分(CMOS)。SMOS 衡量生成音频与参考说话人的相似度,MOS 评估合成语音的整体质量或自然度,而 CMOS 则用于比较两个不同 TTS 系统的质量。
客观评估指标则包括词错误率(WER)和客观说话人相似度(SIM)。WER 衡量语音识别合成语音时的错误率,SIM 则通过计算说话人嵌入向量之间的余弦相似度来评估说话人相似度。
根据 KALL-E 论文中的比较 :
指标 | KALL-E | YourTTS | VALL-E | SparkTTS |
---|---|---|---|---|
自然度 (MOS) | 3.87 ± 0.12 | 3.08 ± 0.14 | 3.12 ± 0.19 | |
说话人相似度 (SMOS) | 3.91 ± 0.07 | 3.17 ± 0.08 | 3.36 ± 0.12 | |
情感克隆 (CMOS) | 0.00 | -0.23 | -0.09 | |
口音克隆 (CMOS) | 0.00 | -0.18 | -0.12 | |
词错误率 (WER) | 8.5% | 7.1% | 9.6% | 5.8% |
客观说话人相似度 (SIM) | 0.67 | 0.45 | 0.52 |
注:SparkTTS 未包含在此比较中,为额外添加。
其他研究表明,VALL-E 在自然度和说话人相似度方面优于 YourTTS 。SparkTTS 据报告在韵律和情感方面表现出色 ,并且在零样本场景下实现了高可懂度 ,同时还具有较高的效率,目前属于开源上最先进中文效果也是最好的语音克隆模型 。YourTTS 在使用有限的音频进行微调时,可以实现较高的相似度 。
未来展望:小样本和零样本语音克隆的未来
小样本和零样本语音克隆技术正朝着更高的自然度、更强的鲁棒性、更广泛的多语言支持和更低的计算需求方向发展 。持续的研究致力于提升合成语音的自然性和表现力 。扩展对更多语言的支持是未来的一个重要发展方向 。
人们也在努力实现高质量、低延迟的语音转换,以满足实时应用的需求 。神经声码器的进步正在提高计算效率 。更强大的说话人编码器的开发对于实现更好的语音克隆至关重要 。未来的研究可能会探索混合方法,以在效率和质量之间取得更好的平衡 。语音克隆的未来将持续朝着提升模型质量和效率的方向发展,并更加注重技术的普及性和跨语言的通用性。