当前位置: 首页 > news >正文

开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~

简介

GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其核心理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”)结合,特别适合需要个性化语音但数据有限的场景。

特征

  • 零样本 TTS:输入 5 秒的声音样本并体验即时文本到语音的转换。

  • 少量 TTS:仅使用 1 分钟的训练数据对模型进行微调,以提高语音相似度和真实感。

  • 跨语言支持:使用与训练数据集不同的语言进行推理,目前支持英语、日语、韩语、粤语和中文。

  • WebUI 工具:集成语音伴奏分离、自动训练集分割、中文 ASR 和文本标注等工具,帮助初学者创建训练数据集和 GPT/SoVITS 模型。

环境配置

Python 3.9, PyTorch 2.0.1, CUDA 11
Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
Python 3.9, PyTorch 2.2.2, macOS 14.4.1 (Apple silicon)
Python 3.9, PyTorch 2.2.2, CPU devices

numba==0.56.4 requires py<3.11

看看效果

在这里插入图片描述

在这里插入图片描述

相关文献

在线demo:https://huggingface.co/spaces/lj1995/GPT-SoVITS-v2
github地址:https://github.com/RVC-Boss/GPT-SoVITS?tab=readme-ov-file

相关文章:

  • java面向对象06:封装
  • cmd 终端输出乱码问题 |Visual Studio 控制台输出中文乱码解决
  • Day08【基于预训练模型分词器实现交互型文本匹配】
  • 考研数据结构之树与二叉树的应用:哈夫曼树、哈夫曼编码与并查集
  • JavaWeb开发 Servlet底层 从概念到HTTP请求 到web服务器再到servlet
  • ROS2 常用
  • How to run ERSEM
  • linux上安装vimplus 从零开始
  • 使用Python构建桌面图片浏览器
  • cursor如何回退一键回退多个文件的修改
  • Docker 安装 Elasticsearch 8.x
  • Java二叉树深度解析:结构、算法与应用实践指南
  • 【教程】检查RDMA网卡状态和测试带宽 | 附测试脚本
  • Java公平锁和非公平锁实现原理
  • 图论-BFS搜索图/树-最短路径问题的解决
  • 2025 cs144 Lab Checkpoint 2 小白超详细版
  • python 安装win32com.client库
  • ReportLab 导出 PDF(文档创建)
  • vue里provide作用:将一组全局方法注入到 Vue 应用的所有子组件中
  • 【正点原子STM32MP257连载】第四章 ATK-DLMP257B功能测试——USB测试 #USB HOST #USB 鼠标
  • 北理工再通报:开除宫某党籍,免去行政职务,解除聘用关系
  • 诺奖得主等数十位经济学家发表宣言反对美关税政策
  • 上海市市长龚正会见英伟达总裁黄仁勋,共创科技发展美好未来
  • 女子报警称醉酒后疑似被性侵,长沙警方:嫌犯邱某某已被刑拘
  • 纪念沈渭滨︱初五沈大大  浓浓师生情
  • 马克龙:美乌欧在法磋商乌克兰问题“积极且有建设性”