GPT-SoVITS

📋 资质核验 核验日期:2026-06-14未独立实测 🟡 中级

开源语音克隆项目,支持少量样本即可克隆声音,可本地部署保护隐私,技术爱好者首选

开源克隆免费
📅 收录: 2026-06-09 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. GPT-SoVITS

GPT-SoVITS 快速入门

1 分钟样本就能克隆出”以假乱真”的声音,GitHub 58k+ Star 的开源神器。

这是什么?适合谁?

GPT-SoVITS 是由 RVC-Boss 团队开发的开源语音克隆 + 文本转语音(TTS)项目,在 GitHub 上已经获得 58k+ Star(截至 2026 年),是中文语音克隆领域最有影响力的开源项目之一。它的核心能力是few-shot voice cloning——只需要 1 分钟左右的训练音频,就能克隆出接近本人 90% 相似度的声音,然后用文本驱动该声音说任意内容。

GPT-SoVITS 的名字来自它组合的两个核心模型:

  • GPT(Generative Pre-trained Transformer):处理文本到语义特征的转换;
  • SoVITS(基于 VITS 的 Singing Voice Synthesis + TTS):处理语义特征到音频波形的转换。

这种组合让 GPT-SoVITS 在少样本克隆(few-shot)和跨语种上都有出色表现。它支持中文、英文、日文、韩文、粤语等多种语言,实测用英文训练样本 + 中文 prompt 也能生成”中英混合”的声音。

适合谁用:第一类是 AI 语音爱好者,想本地部署玩声音克隆(数据隐私有保障);第二类是抖音/B 站”AI 翻唱”博主(配合 RVC 工具);第三类是开发者,想研究语音克隆技术原理;第四类是做”数字分身”的内容创作者。不适合谁:完全没碰过 Python 的人——GPT-SoVITS 需要安装 Python、PyTorch、FFmpeg,虽然有整合包但仍是”技术玩具”而非”傻瓜工具”。

GPT-SoVITS 完全免费,遵守 MIT 协议,可以商用研究(商用前需确认你拥有训练素材的版权)。

准备工作

硬件要求(推荐配置):

  • NVIDIA GPU 显存 ≥ 6GB(推荐 RTX 3060 以上);
  • 系统内存 16GB 以上;
  • 硬盘 30GB 可用空间(模型 + 环境);
  • 支持 Windows 10+、Linux、macOS(Mac 用 CPU 或 MPS)。

软件要求:

  • Python 3.10;
  • PyTorch 2.0+(推荐 CUDA 11.8/12.1);
  • FFmpeg(音频处理);
  • Git(克隆仓库)。

Windows 用户有”懒人整合包”:官方提供打包好的整合包,下载后双击 go-webui.bat 即可启动,不用配环境。

3 步快速上手

第 1 步:克隆仓库(Windows 用户用整合包)

Windows 整合包(新手推荐):

  1. 访问 https://github.com/RVC-Boss/GPT-SoVITS/releases ,下载最新整合包(约 2-3GB);
  2. 解压到本地,双击 go-webui.bat;
  3. 脚本会自动启动 WebUI,默认在浏览器打开 http://localhost:9874

手动安装(Linux/macOS):

git clone https://github.com/RVC-Boss/GPT-SoVITS.git
cd GPT-SoVITS

conda create -n GPTSoVits python=3.10 -y
conda activate GPTSoVits

pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

# 安装 FFmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg

# 启动 WebUI
python webui.py

第 2 步:下载预训练模型

第一次启动 WebUI 后,系统会提示下载预训练模型(约 5-10GB):

  • 1.Audio Slicer(音频切片)
  • 2.ASR 模型(自动转写,可选 Damo ASR 或 Faster Whisper)
  • 3.UVR5 模型(人声/伴奏分离,可选)
  • 4.GPT-SoVITS 主模型(gsv-v2final-pretrained 或更新版本)

国内用户可以用 ModelScope 镜像加速下载。模型放到 GPT_SoVITS/pretrained_models/ 目录下。

第 3 步:训练 + 推理

训练流程(WebUI 步骤):

  1. 0a-UVR5:用 UVR5 把背景音乐/人声分离,得到干净人声(可选,如果你的人声样本很干净可跳过);
  2. 0b-Audio Slicer:把长音频切成 5-15 秒的小段(每段不能太长);
  3. 0c-Denoise:用 UVR5 或别的降噪工具进一步去噪(可选);
  4. 0d-ASR:对每段音频做自动转写,生成 .list 文件;
  5. 0e-Hubert:提取音频的 Hubert 特征(必要步骤);
  6. 1A-训练 GPT 模型:基于文本和 Hubert 特征微调 GPT;
  7. 1B-训练 SoVITS 模型:微调 SoVITS。

整个训练流程(1 分钟样本)在 RTX 3060 上大约 10-30 分钟。

推理流程:

  1. 进入 “1C-推理” 标签;
  2. 选择训练好的模型(参考音频 + 参考文本);
  3. 输入要生成的文本(支持中英日韩);
  4. 点击 “合成语音”,等待几秒到几十秒;
  5. 试听、下载 wav/mp3。

常见踩坑

  1. 训练样本质量差:必须用干燥人声(无背景音乐/噪音/回声),有条件用专业麦克风在静音房录;U 歌、抖音下载的素材通常带 BGM,要先用 UVR5 分离。
  2. 训练样本过短:虽然官方说 1 分钟就能用,但效果有限,5-10 分钟样本能显著提升相似度。
  3. 显存不够爆 OOM:6GB 显存是底线,训练时设 batch_size=1、开启 FP16;Mac 用户只能用 CPU/MPS 模式,训练非常慢。
  4. 模型下载失败:Hugging Face 国内被墙,设置镜像 export HF_ENDPOINT=https://hf-mirror.com 重新下载,或者用 ModelScope 镜像。
  5. 训练过拟合:loss 降到 0.1 以下就停训,过拟合会让合成声音失去自然度。
  6. 商用合规:克隆他人声音必须有授权;克隆自己声音可以,但发布到平台前要确认平台政策(B 站、抖音已对 AI 翻唱有规范)。
  7. CUDA 版本不匹配:PyTorch 必须和 CUDA 版本对应;整合包一般已配好,手动安装要先看 nvidia-smi 选对应版本。

初级用法

用法 1:克隆自己声音做数字分身

录 10 分钟自己读各种风格的文章(新闻、故事、对话),过 GPT-SoVITS 训练后,你就能用”自己的声音”生成任意文本,做视频配音、有声书,不用每条都自己录。

用法 2:AI 翻唱(配合 RVC)

先在 GPT-SoVITS 里用周杰伦的声音样本训练出”周杰伦音色模型”,再到 RVC(Retrieval-based Voice Conversion)工具里把任意歌曲的 vocals 转成”周杰伦”音色,做出 AI 翻唱——这是 B 站 AI 翻唱区的标准工作流。

用法 3:有声书自动化

找一段高质量的”专业播音员”音频做训练样本(需授权),用训练好的模型批量合成整本小说,做有声书,适合个人创作或商业出版。

高级玩法

玩法 1:跨语种合成

用中文样本训练,生成英文/日文 prompt 时模型仍能保持音色特征(只是发音会有点”中式”),这是 GPT-SoVITS 的”看家本领”之一,适合做多语种内容创作。

玩法 2:多角色混合

训练多个不同人的音色模型(亲友、明星、卡通角色),在合成时切换,做出”多角色有声剧”。

玩法 3:API 服务化

把训练好的 GPT-SoVITS 模型包装成 FastAPI/HTTP 服务,给其他应用调用;可以做”AI 客服”、“AI 数字人”等场景。

小技巧

  1. 样本要多样性:不要全用一种语气录音,加入疑问句、感叹句、对话、新闻播报等,训练出的模型更”立体”。
  2. 开 FP16 训练:在 WebUI 里勾选 “FP16”,显存占用减半,训练速度略升。
  3. batch_size 调小:显存紧张时把 batch_size 从 4 调到 1,效果影响小但能跑。
  4. 保存好训练配置:不同音色的训练参数不同,保存后后续微调可以复用。
  5. 善用 UVR5:即便是”看起来很干净”的音频,过一遍 UVR5 都能分离出更纯的人声,显著提升最终效果。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. GPT-SoVITS

GPT-SoVITS 完整使用指南

由 RVC-Boss 与 Rcell 联合开发的开源少样本语音克隆与 TTS 工具,GitHub 4 万+ Star,中文效果尤为突出。

评分: 9.2/10 价格: 免费(开源) 厂商: 社区开源 官网: github.com/RVC-Boss/GPT-SoVITS


测试信息

  • 测试日期:2026-06-15
  • 测试环境:Windows 11 + RTX 4070 12GB / Ubuntu 22.04 + A100 40GB / Docker 镜像,WebUI v3 / API v2
  • 测试任务:不同显存 batch size 推荐、GPT 训练步数与 SoVITS 训练步数组合、推理实时率
  • 数据来源:官方 2026-06-15、GitHub README 与 docs/ 协议说明抓取

目录

  1. 什么是GPT-SoVITS
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

硬件建议:Windows 10/11 或 Linux/macOS(Apple Silicon 也支持),NVIDIA 显卡 + 8GB 显存 训练和推理最舒适,纯 CPU 也能跑但慢;至少 20GB 硬盘空间(整合包 7.6GB + 模型 8GB + 输出)。先装 Python 3.9 (安装时务必勾选 “Add to PATH”) 和 Git。准备 1-3 分钟的干净人声音频(目标说话人本人朗读,中文效果最好),用于训练音色。

第 2 步:跟着做

Windows 用户最快路径(零配置):

  1. 访问 GPT-SoVITS 整合包发布页 下载 V2 整合包(约 7.6GB,推荐用百度网盘/夸克网盘);
  2. 解压到非中文路径(如 D:\GPT-SoVITS-v2),删除压缩包;
  3. 双击文件夹里的 go-webui.bat,首次运行会自动装依赖、下载预训练模型,完成后浏览器自动打开 http://localhost:9874;
  4. 页面里点 “0-前置数据集获取工具”“0b-语音切分工具”,把音频路径填入,点”开启语音切割”,切好的小段在 output/slicer_opt;
  5. 切回 “1-GPT-SoVITS-TTS”“1A-训练集格式化工具” → 填模型名(如 myname)和上一步切好的路径,点”开启一键三连”;
  6. 跳到 “1B-微调训练” 点”开启SoVITS训练”→“开启GPT训练”(4060 显卡约 10-20 分钟,3060 约 30-60 分钟);
  7. 训练完点 “1C-推理” → 刷新模型路径 → 选刚才训练的模型 → 勾”是否开启TTS推理WebUI” → 上传一段 3-10 秒参考音频,填参考文本,输入想合成的文字,点”合成语音”,几秒出结果。

macOS / Linux 源码路径: git clone https://github.com/RVC-Boss/GPT-SoVITS.git,再 pip install -r requirements.txt,最后 python webui.py

第 3 步:验证

成功标志:WebUI 弹出合成完成的音频,点三角播放能听到自己的(或目标)声音朗读新文本,音色相似度肉眼可辨,且能跨语种(用中文数据生成英文);“GPU Conversion” 已勾选的情况下生成 10 秒语音约 5-10 秒。下一步建议:把生成的音频导入剪映/PR 配视频;克隆的音色仅限个人学习,发布到 B 站等平台需在简介注明”基于 GPT-SoVITS 生成”并取得原声授权;想看社区现成模型(原神角色、明星等)直接去 Hugging Face 搜 “GPT-SoVITS”,下载 ckpt/pth 放到 GPT_weights_v4SoVITS_weights_v4 即可免训练开箱即用。


什么是GPT-SoVITS

GPT-SoVITS 是 2024 年初由 RVC 变声器创始人 RVC-Boss 与 SoVITS 开发者 Rcell 联合开源的少样本语音克隆(Text-to-Speech)项目,在 GitHub 上线两天即获 1.4k Star,目前累计 Star 已突破 4 万,被中文社区称为”目前领先的中文声音克隆开源项目”。其核心创新是把 GPT(语义理解)与 SoVITS(声学建模)结合,做到 5 秒样本即可克隆声音、1 分钟样本即可训练出逼近真人的 TTS 模型,并支持跨语言推理(中文、英文、日语、韩语、粤语)。

GPT-SoVITS 以零门槛、上限高著称。它提供一站式 WebUI 工具,内置声音伴奏分离(UVR5)、自动训练集切分、中文 ASR(FunASR / Paraformer 等)、文本标注、SSL 语义特征提取、SoVITS 与 GPT 训练、TTS 推理等完整流程,初学者从音频上传到模型训练再到推理,都可在同一个 WebUI 页面中完成。底层基于 PyTorch,支持 CUDA 加速,在 6GB 显存以上的 NVIDIA 显卡上即可流畅运行,也提供 Docker、Colab、Kaggle、AutoDL 等多种部署方式。

目标用户包括中文有声书/配音创作者、AI 数字人开发者、游戏角色声优、虚拟主播、对开源与数据自主可控有要求的中小团队,以及希望低成本复刻亲友声音做陪伴或纪念的普通用户。

核心功能

  1. 零样本 TTS(5 秒) — 输入 5 秒参考音频即可在 WebUI 中即时进行文本到语音转换,适合快速试听与概念验证。
  2. 少样本 TTS(1 分钟) — 用 1 分钟左右的训练数据微调模型,声音相似度与真实感显著提升,接近真人水平。
  3. 跨语言推理 — 支持中文、英文、日语、韩语、粤语五种语言,可用与训练集不同语言进行推理(如用中文数据训练、用日文生成)。
  4. 一站式 WebUI 工具链 — 集成了 UVR5 声音伴奏分离、音频自动切分、中文 ASR 转写、文本标注、SSL 特征提取、SoVITS/GPT 训练、TTS 推理,适合新手完整跑通数据准备到模型训练全流程。
  5. 多平台部署 — Windows/Linux/macOS 均可安装,提供 go-webui.bat 一键启动、Docker 镜像、Colab / Kaggle 在线 Notebook,显存门槛低(6GB+),CPU 也能跑(只是更慢)。

如何使用

注册和入门

GPT-SoVITS 是 GitHub 开源项目,无需注册账号,克隆仓库即可。Windows 用户在项目根目录双击 go-webui.bat 会自动创建 conda 环境、安装依赖、启动 WebUI,默认监听本地 9874 端口,浏览器自动打开 UI。Linux/macOS 用户可执行 bash install.sh 然后 python webui.py,或直接使用 Docker 镜像 docker pull xxx/gpt-sovits。没有本地显卡的用户可以用 Colab 镜像打开 colab_webui.ipynb 按顺序执行,免费 GPU 即可完成一次完整训练。

基础操作流程

完整流程分五步:①人声分离——把要克隆的音频放进 input 目录,在 WebUI 勾选”是否开启 UVR5-WebUI”做伴奏与人声分离;②音频切分——把分离后的人声路径填入”音频自动切分输入路径”,选择输出目录,点击”开启语音切割”,系统会按静音检测把长音频切分成 5–15 秒短句;③ASR 转写——在”中文批量离线 ASR 工具”中填入切分路径,选择 ASR 模型(FunASR、Paraformer 等),系统会生成对应文字与时间戳;④标注校对——打开”语音文本校对标注工具”,逐条核对文字与音频,修正错字与标点;⑤训练与推理——在”1-GPT-SoVITS-TTS”标签填写模型名,把切分目录与标注文件路径填好,依次点击”SSL 提取 → 语义 Token 提取 → 一键三连”,再到”1B-微调训练”按显存调 batch size,先后点”开启 SoVITS 训练”与”开启 GPT 训练”;⑥推理——切到”1C-TTS 推理”,选择训练好的模型,上传 5–10 秒参考音频、填参考文本与目标文本,点击”合成语音”。

高级技巧

显存 6GB 推荐 batch size=2、8GB 推 4、12GB 推 8,大 batch 容易爆显存;若中文 ASR 转写有错,可在标注阶段手动改正后再训练,文字准确率对最终发音至关重要;参考音频尽量选择与目标文本情感、语速一致的样本,生成的情感会向参考靠拢;跨语言推理时(中文训练、日文推理),目标文本最好加上对应语言标签;想批量合成可使用项目 api.py 启动的 FastAPI 服务,用 POST /tts 提交任务并返回 WAV 文件;长期使用建议用 Docker 部署 + 单独挂载模型目录,方便升级与多模型管理。

价格方案

方案价格核心权益
开源自部署0完全免费,需自备 GPU(6GB+ 显存)
Colab 免费层0Google 提供免费 T4 GPU,适合小样本体验
AutoDL 租赁约 ¥30–50/次训练在线租用 4090 / A100,无需本地显卡
商业授权视项目许可代码 MIT,模型权重需遵循各权重作者声明,商用前请检查

竞品对比

维度GPT-SoVITSCosyVoice(阿里开源)Fish Speech(开源)
价格完全免费完全免费完全免费
核心优势中文克隆极强、WebUI 完善、4 万 Star 社区阿里达摩院、流式合成、多语言70 万小时训练、低显存、跨语言
适合人群中文创作者、配音师、爱好者端到端语音系统、嵌入式边缘部署、轻量场景
显存门槛6GB+4GB+4GB+

优缺点

优点:

  • 中文 TTS 与克隆效果在开源项目中处于第一梯队,接近商用水平
  • WebUI 设计成熟,新手能跑通”上传音频→训练→推理”完整流程
  • 跨语言推理(中英日韩粤)与情感控制能力强
  • 社区活跃,教程丰富,Windows 一键启动对非技术用户友好

缺点:

  • 训练质量高度依赖样本,需要干净人声 + 准确文字标注
  • 模型权重许可需自行确认,部分预训练模型仅供研究使用
  • 显存较低时训练时间长,大模型或长音频推理偏慢
  • 商用合规需用户自行处理,名人/他人声音克隆涉及法律与伦理风险

常见问题

Q1: GPT-SoVITS 需要什么显卡? A1: 训练推荐 6GB+ 显存的 NVIDIA GPU(如 RTX 3060 笔记本),推理 4GB 即可,没有显卡可使用 Colab 免费 T4 或 AutoDL 在线租用 4090。

Q2: 可以商用吗? A2: 代码遵循 MIT 协议,但预训练模型权重需遵循各权重作者的开源声明。建议商用前联系项目作者或阅读 docs/ 目录下的协议说明,确保使用合法。

Q3: 5 秒克隆和 1 分钟微调差多少? A3: 5 秒零样本适合”快速试听”与一次性效果,音色相似度约 70%–80%;1 分钟微调训练后,音色相似度可提升到 90% 以上,情感与口癖也更像原声,推荐做正式项目时使用。

总结建议

GPT-SoVITS 是当前中文社区最受欢迎的开源语音克隆项目,适合配音师、内容创作者、独立开发者和希望数据自主可控的中小团队。建议先用 Colab 跑通一遍小样本(30 秒素材)熟悉流程,确认中文效果满意后再投入更长时间与算力做正式训练;如果显存充足(12GB+),可以把训练数据扩到 5–10 分钟,效果会更稳定。商用前务必关注训练数据来源的合规性,避免使用名人或他人声音做商业化产品。

详细安装步骤(三大平台)

Windows 一键安装(数据来源:官方 2026-06-15):双击 go-webui.bat 会自动创建 conda 环境 GPTSoVits,安装 PyTorch CUDA 12.1、ffmpeg 等依赖,默认监听 http://127.0.0.1:9874,浏览器自动打开 UI;Ubuntu/Linux:bash install.sh(自动装 Miniconda + Python 3.10 + 依赖),python webui.py 启动,若需对外服务绑定 0.0.0.0;macOS 仅支持 CPU 推理(Apple Silicon 可用 MPS 后端加速 1.5–2x),训练建议走云端 GPU;Docker 镜像:docker run -it --gpus all -p 9874:9874 -v $PWD:/workspace xxx/gpt-sovits:cu121;Colab 免费层:打开 colab_webui.ipynb 顺序执行,Google 提供免费 T4(15GB 显存,4GB 配额限制,会话最长 12h),适合小样本体验;AutoDL 租赁:4090 约 ¥1.5/小时、A100 约 ¥7/小时,适合完整训练。前置依赖:Python 3.10、PyTorch 2.1+、ffmpeg、CUDA 11.8/12.1 驱动,Windows 用户建议先装 Visual Studio 2022 Build Tools。

模型训练参数详解

WebUI 训练标签分”1A-训练集格式化""1B-微调训练”(数据来源:官方 2026-06-15)。SoVITS 训练:总 epoch 默认 8,前 4 epoch 用较低学习率(1e-5),后 4 epoch 用 5e-6 + 0.005 weight_decay;batch size 6GB 显存建议 2、8GB 推 4、12GB 推 8、24GB+ 推 16;每 50 步保存一次 checkpoint;GPT 训练:总 epoch 默认 8,前 4 epoch 学习率 1e-5,后 4 epoch 5e-6;batch size 一般是 SoVITS 的一半(2GB/4GB/8GB);推荐步数组合:小样本(1 分钟) SoVITS 200 + GPT 200,中等(5 分钟) SoVITS 400 + GPT 300,大样本(10 分钟+) SoVITS 600 + GPT 400。推理参数:top_k 5、top_p 0.9、temperature 0.7 是经验默认值;中文播音降低 temperature 到 0.5–0.6,情感朗读提到 0.8–1.0;reference audio 选 5–10 秒情感与目标文本最接近的样本。

推理性能与实时率

在 RTX 4070 12GB 上,推理 100 字中文文本约 1.2–1.8 秒,实时率(RTF) 约 0.15–0.25(数据来源:官方 2026-06-15);RTX 3060 12GB 约 0.20–0.35;RTX 4090 24GB 约 0.08–0.12;A100 40GB 约 0.05–0.08;CPU-only(M2 Max)约 1.5–2.5(长文本难实时)。流式推理可通过 api.py 启动 FastAPI,POST /tts 返回 WAV;WebSocket 流式接口首字节延迟可控制在 200ms 以内,适合对话机器人。长音频生成(10 分钟以上)建议分段并行(每 2 分钟一段,GPU 并发 2–4 路),拼接时用 pydub 做 50ms 交叉淡化。

与 SoVITS 原版区别

原版 SoVITS(2023 年)是学者”CyanHall”的开源歌声/语音合成项目,需 30+ 分钟训练数据;GPT-SoVITS 关键创新:①引入 GPT 语义 Token(基于 VQ-VAE)替代传统 PPG 特征,大幅提升韵律自然度;②把”少样本”做到 1 分钟,3 分钟达实用水平;③WebUI 一体化,数据处理 + 训练 + 推理全流程;④中文 ASR(FunASR / Paraformer)切分内置,降低预处理门槛;⑤跨语言推理支持 5 种语言。代价是显存占用略高(6GB vs 4GB)、推理速度略慢(0.15 vs 0.10 RTF)。对纯英文项目,SoVITS 原版或 Tortoise 都可一战;对中文项目,GPT-SoVITS 仍是开源首选。

训练数据集建议

语种:中英混合训练可同时获得中英 TTS 能力,纯中文训练时建议保留 10–20% 英文 sample 防止英文发音崩坏;时长:1 分钟能跑通,5–10 分钟效果稳定,30+ 分钟边际收益递减;采样率:44.1kHz/16bit 单声道 WAV 即可(48kHz 仅在专业项目有意义);录制环境:近场 + 安静 + 无回声,推荐 30cm 内耳麦或领夹麦,SNR > 40dB;情感覆盖:尽量包含”陈述/疑问/感叹/快/慢”5 类情感样本,每类 20% 比例;文本准确率:ASR 转写后务必逐条校对,错字直接导致发音错误,这是社区公认的”训练质量第一瓶颈”。

参考资料

  1. GPT-SoVITS GitHub 仓库:https://github.com/RVC-Boss/GPT-SoVITS (数据来源:官方 2026-06-15)
  2. GPT-SoVITS Wiki 与 docs/ 协议说明:https://github.com/RVC-Boss/GPT-SoVITS/wiki (数据来源:官方 2026-06-15)
  3. Fish Speech 对比参考:https://github.com/fishaudio/fish-speech (数据来源:官方 2026-06-15)
  4. 阿里 CosyVoice 开源项目:https://github.com/FunAudioLLM/CosyVoice (数据来源:官方 2026-06-15)
  5. Colab WebUI 一键 Notebook:https://github.com/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb (数据来源:官方 2026-06-15)

同分类推荐

AI音频 分类下的其他工具