开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~
简介
GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其核心理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”)结合,特别适合需要个性化语音但数据有限的场景。
特征
-
零样本 TTS:输入 5 秒的声音样本并体验即时文本到语音的转换。
-
少量 TTS:仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。
-
跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语、韩语、粤语和中文。
-
WebUI 工具:集成语音伴奏分离、自动训练集分割、中文 ASR 和文本标注等工具,帮助初学者创建训练数据集和 GPT/SoVITS 模型。
环境配置
Python 3.9, PyTorch 2.0.1, CUDA 11
Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
Python 3.9, PyTorch 2.2.2, macOS 14.4.1 (Apple silicon)
Python 3.9, PyTorch 2.2.2, CPU devices
numba==0.56.4 requires py<3.11
看看效果
相关文献
在线demo:https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2
github地址:https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file