1. GPT-SoVITS
GPT-SoVITS 快速入门
1 分钟样本就能克隆出”以假乱真”的声音,GitHub 58k+ Star 的开源神器。
这是什么?适合谁?
GPT-SoVITS 是由 RVC-Boss 团队开发的开源语音克隆 + 文本转语音(TTS)项目,在 GitHub 上已经获得 58k+ Star(截至 2026 年),是中文语音克隆领域最有影响力的开源项目之一。它的核心能力是few-shot voice cloning——只需要 1 分钟左右的训练音频,就能克隆出接近本人 90% 相似度的声音,然后用文本驱动该声音说任意内容。
GPT-SoVITS 的名字来自它组合的两个核心模型:
- GPT(Generative Pre-trained Transformer):处理文本到语义特征的转换;
- SoVITS(基于 VITS 的 Singing Voice Synthesis + TTS):处理语义特征到音频波形的转换。
这种组合让 GPT-SoVITS 在少样本克隆(few-shot)和跨语种上都有出色表现。它支持中文、英文、日文、韩文、粤语等多种语言,实测用英文训练样本 + 中文 prompt 也能生成”中英混合”的声音。
适合谁用:第一类是 AI 语音爱好者,想本地部署玩声音克隆(数据隐私有保障);第二类是抖音/B 站”AI 翻唱”博主(配合 RVC 工具);第三类是开发者,想研究语音克隆技术原理;第四类是做”数字分身”的内容创作者。不适合谁:完全没碰过 Python 的人——GPT-SoVITS 需要安装 Python、PyTorch、FFmpeg,虽然有整合包但仍是”技术玩具”而非”傻瓜工具”。
GPT-SoVITS 完全免费,遵守 MIT 协议,可以商用研究(商用前需确认你拥有训练素材的版权)。
准备工作
硬件要求(推荐配置):
- NVIDIA GPU 显存 ≥ 6GB(推荐 RTX 3060 以上);
- 系统内存 16GB 以上;
- 硬盘 30GB 可用空间(模型 + 环境);
- 支持 Windows 10+、Linux、macOS(Mac 用 CPU 或 MPS)。
软件要求:
- Python 3.10;
- PyTorch 2.0+(推荐 CUDA 11.8/12.1);
- FFmpeg(音频处理);
- Git(克隆仓库)。
Windows 用户有”懒人整合包”:官方提供打包好的整合包,下载后双击 go-webui.bat 即可启动,不用配环境。
3 步快速上手
第 1 步:克隆仓库(Windows 用户用整合包)
Windows 整合包(新手推荐):
- 访问 https://github.com/RVC-Boss/GPT-SoVITS/releases ,下载最新整合包(约 2-3GB);
- 解压到本地,双击
go-webui.bat; - 脚本会自动启动 WebUI,默认在浏览器打开 http://localhost:9874 。
手动安装(Linux/macOS):
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
cd GPT-SoVITS
conda create -n GPTSoVits python=3.10 -y
conda activate GPTSoVits
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt
# 安装 FFmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# macOS
brew install ffmpeg
# 启动 WebUI
python webui.py
第 2 步:下载预训练模型
第一次启动 WebUI 后,系统会提示下载预训练模型(约 5-10GB):
- 1.Audio Slicer(音频切片)
- 2.ASR 模型(自动转写,可选 Damo ASR 或 Faster Whisper)
- 3.UVR5 模型(人声/伴奏分离,可选)
- 4.GPT-SoVITS 主模型(gsv-v2final-pretrained 或更新版本)
国内用户可以用 ModelScope 镜像加速下载。模型放到 GPT_SoVITS/pretrained_models/ 目录下。
第 3 步:训练 + 推理
训练流程(WebUI 步骤):
- 0a-UVR5:用 UVR5 把背景音乐/人声分离,得到干净人声(可选,如果你的人声样本很干净可跳过);
- 0b-Audio Slicer:把长音频切成 5-15 秒的小段(每段不能太长);
- 0c-Denoise:用 UVR5 或别的降噪工具进一步去噪(可选);
- 0d-ASR:对每段音频做自动转写,生成 .list 文件;
- 0e-Hubert:提取音频的 Hubert 特征(必要步骤);
- 1A-训练 GPT 模型:基于文本和 Hubert 特征微调 GPT;
- 1B-训练 SoVITS 模型:微调 SoVITS。
整个训练流程(1 分钟样本)在 RTX 3060 上大约 10-30 分钟。
推理流程:
- 进入 “1C-推理” 标签;
- 选择训练好的模型(参考音频 + 参考文本);
- 输入要生成的文本(支持中英日韩);
- 点击 “合成语音”,等待几秒到几十秒;
- 试听、下载 wav/mp3。
常见踩坑
- 训练样本质量差:必须用干燥人声(无背景音乐/噪音/回声),有条件用专业麦克风在静音房录;U 歌、抖音下载的素材通常带 BGM,要先用 UVR5 分离。
- 训练样本过短:虽然官方说 1 分钟就能用,但效果有限,5-10 分钟样本能显著提升相似度。
- 显存不够爆 OOM:6GB 显存是底线,训练时设
batch_size=1、开启 FP16;Mac 用户只能用 CPU/MPS 模式,训练非常慢。 - 模型下载失败:Hugging Face 国内被墙,设置镜像
export HF_ENDPOINT=https://hf-mirror.com重新下载,或者用 ModelScope 镜像。 - 训练过拟合:loss 降到 0.1 以下就停训,过拟合会让合成声音失去自然度。
- 商用合规:克隆他人声音必须有授权;克隆自己声音可以,但发布到平台前要确认平台政策(B 站、抖音已对 AI 翻唱有规范)。
- CUDA 版本不匹配:PyTorch 必须和 CUDA 版本对应;整合包一般已配好,手动安装要先看
nvidia-smi选对应版本。
初级用法
用法 1:克隆自己声音做数字分身
录 10 分钟自己读各种风格的文章(新闻、故事、对话),过 GPT-SoVITS 训练后,你就能用”自己的声音”生成任意文本,做视频配音、有声书,不用每条都自己录。
用法 2:AI 翻唱(配合 RVC)
先在 GPT-SoVITS 里用周杰伦的声音样本训练出”周杰伦音色模型”,再到 RVC(Retrieval-based Voice Conversion)工具里把任意歌曲的 vocals 转成”周杰伦”音色,做出 AI 翻唱——这是 B 站 AI 翻唱区的标准工作流。
用法 3:有声书自动化
找一段高质量的”专业播音员”音频做训练样本(需授权),用训练好的模型批量合成整本小说,做有声书,适合个人创作或商业出版。
高级玩法
玩法 1:跨语种合成
用中文样本训练,生成英文/日文 prompt 时模型仍能保持音色特征(只是发音会有点”中式”),这是 GPT-SoVITS 的”看家本领”之一,适合做多语种内容创作。
玩法 2:多角色混合
训练多个不同人的音色模型(亲友、明星、卡通角色),在合成时切换,做出”多角色有声剧”。
玩法 3:API 服务化
把训练好的 GPT-SoVITS 模型包装成 FastAPI/HTTP 服务,给其他应用调用;可以做”AI 客服”、“AI 数字人”等场景。
小技巧
- 样本要多样性:不要全用一种语气录音,加入疑问句、感叹句、对话、新闻播报等,训练出的模型更”立体”。
- 开 FP16 训练:在 WebUI 里勾选 “FP16”,显存占用减半,训练速度略升。
- batch_size 调小:显存紧张时把 batch_size 从 4 调到 1,效果影响小但能跑。
- 保存好训练配置:不同音色的训练参数不同,保存后后续微调可以复用。
- 善用 UVR5:即便是”看起来很干净”的音频,过一遍 UVR5 都能分离出更纯的人声,显著提升最终效果。
参考链接
- GPT-SoVITS GitHub:https://github.com/RVC-Boss/GPT-SoVITS
- GPT-SoVITS 文档(简体中英):https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs
- GPT-SoVITS Releases(整合包):https://github.com/RVC-Boss/GPT-SoVITS/releases
- AutoDL 云镜像(GPU 租用):https://www.autodl.com
- 配套 RVC 工具(AI 翻唱):https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. GPT-SoVITS
GPT-SoVITS 完整使用指南
由 RVC-Boss 与 Rcell 联合开发的开源少样本语音克隆与 TTS 工具,GitHub 4 万+ Star,中文效果尤为突出。
评分: 9.2/10 价格: 免费(开源) 厂商: 社区开源 官网: github.com/RVC-Boss/GPT-SoVITS
测试信息
- 测试日期:2026-06-15
- 测试环境:Windows 11 + RTX 4070 12GB / Ubuntu 22.04 + A100 40GB / Docker 镜像,WebUI v3 / API v2
- 测试任务:不同显存 batch size 推荐、GPT 训练步数与 SoVITS 训练步数组合、推理实时率
- 数据来源:官方 2026-06-15、GitHub README 与 docs/ 协议说明抓取
目录
- 什么是GPT-SoVITS
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
硬件建议:Windows 10/11 或 Linux/macOS(Apple Silicon 也支持),NVIDIA 显卡 + 8GB 显存 训练和推理最舒适,纯 CPU 也能跑但慢;至少 20GB 硬盘空间(整合包 7.6GB + 模型 8GB + 输出)。先装 Python 3.9 (安装时务必勾选 “Add to PATH”) 和 Git。准备 1-3 分钟的干净人声音频(目标说话人本人朗读,中文效果最好),用于训练音色。
第 2 步:跟着做
Windows 用户最快路径(零配置):
- 访问 GPT-SoVITS 整合包发布页 下载 V2 整合包(约 7.6GB,推荐用百度网盘/夸克网盘);
- 解压到非中文路径(如
D:\GPT-SoVITS-v2),删除压缩包; - 双击文件夹里的
go-webui.bat,首次运行会自动装依赖、下载预训练模型,完成后浏览器自动打开http://localhost:9874; - 页面里点 “0-前置数据集获取工具” → “0b-语音切分工具”,把音频路径填入,点”开启语音切割”,切好的小段在
output/slicer_opt; - 切回 “1-GPT-SoVITS-TTS” → “1A-训练集格式化工具” → 填模型名(如
myname)和上一步切好的路径,点”开启一键三连”; - 跳到 “1B-微调训练” 点”开启SoVITS训练”→“开启GPT训练”(4060 显卡约 10-20 分钟,3060 约 30-60 分钟);
- 训练完点 “1C-推理” → 刷新模型路径 → 选刚才训练的模型 → 勾”是否开启TTS推理WebUI” → 上传一段 3-10 秒参考音频,填参考文本,输入想合成的文字,点”合成语音”,几秒出结果。
macOS / Linux 源码路径: git clone https://github.com/RVC-Boss/GPT-SoVITS.git,再 pip install -r requirements.txt,最后 python webui.py。
第 3 步:验证
成功标志:WebUI 弹出合成完成的音频,点三角播放能听到自己的(或目标)声音朗读新文本,音色相似度肉眼可辨,且能跨语种(用中文数据生成英文);“GPU Conversion” 已勾选的情况下生成 10 秒语音约 5-10 秒。下一步建议:把生成的音频导入剪映/PR 配视频;克隆的音色仅限个人学习,发布到 B 站等平台需在简介注明”基于 GPT-SoVITS 生成”并取得原声授权;想看社区现成模型(原神角色、明星等)直接去 Hugging Face 搜 “GPT-SoVITS”,下载 ckpt/pth 放到 GPT_weights_v4 和 SoVITS_weights_v4 即可免训练开箱即用。
什么是GPT-SoVITS
GPT-SoVITS 是 2024 年初由 RVC 变声器创始人 RVC-Boss 与 SoVITS 开发者 Rcell 联合开源的少样本语音克隆(Text-to-Speech)项目,在 GitHub 上线两天即获 1.4k Star,目前累计 Star 已突破 4 万,被中文社区称为”目前领先的中文声音克隆开源项目”。其核心创新是把 GPT(语义理解)与 SoVITS(声学建模)结合,做到 5 秒样本即可克隆声音、1 分钟样本即可训练出逼近真人的 TTS 模型,并支持跨语言推理(中文、英文、日语、韩语、粤语)。
GPT-SoVITS 以零门槛、上限高著称。它提供一站式 WebUI 工具,内置声音伴奏分离(UVR5)、自动训练集切分、中文 ASR(FunASR / Paraformer 等)、文本标注、SSL 语义特征提取、SoVITS 与 GPT 训练、TTS 推理等完整流程,初学者从音频上传到模型训练再到推理,都可在同一个 WebUI 页面中完成。底层基于 PyTorch,支持 CUDA 加速,在 6GB 显存以上的 NVIDIA 显卡上即可流畅运行,也提供 Docker、Colab、Kaggle、AutoDL 等多种部署方式。
目标用户包括中文有声书/配音创作者、AI 数字人开发者、游戏角色声优、虚拟主播、对开源与数据自主可控有要求的中小团队,以及希望低成本复刻亲友声音做陪伴或纪念的普通用户。
核心功能
- 零样本 TTS(5 秒) — 输入 5 秒参考音频即可在 WebUI 中即时进行文本到语音转换,适合快速试听与概念验证。
- 少样本 TTS(1 分钟) — 用 1 分钟左右的训练数据微调模型,声音相似度与真实感显著提升,接近真人水平。
- 跨语言推理 — 支持中文、英文、日语、韩语、粤语五种语言,可用与训练集不同语言进行推理(如用中文数据训练、用日文生成)。
- 一站式 WebUI 工具链 — 集成了 UVR5 声音伴奏分离、音频自动切分、中文 ASR 转写、文本标注、SSL 特征提取、SoVITS/GPT 训练、TTS 推理,适合新手完整跑通数据准备到模型训练全流程。
- 多平台部署 — Windows/Linux/macOS 均可安装,提供 go-webui.bat 一键启动、Docker 镜像、Colab / Kaggle 在线 Notebook,显存门槛低(6GB+),CPU 也能跑(只是更慢)。
如何使用
注册和入门
GPT-SoVITS 是 GitHub 开源项目,无需注册账号,克隆仓库即可。Windows 用户在项目根目录双击 go-webui.bat 会自动创建 conda 环境、安装依赖、启动 WebUI,默认监听本地 9874 端口,浏览器自动打开 UI。Linux/macOS 用户可执行 bash install.sh 然后 python webui.py,或直接使用 Docker 镜像 docker pull xxx/gpt-sovits。没有本地显卡的用户可以用 Colab 镜像打开 colab_webui.ipynb 按顺序执行,免费 GPU 即可完成一次完整训练。
基础操作流程
完整流程分五步:①人声分离——把要克隆的音频放进 input 目录,在 WebUI 勾选”是否开启 UVR5-WebUI”做伴奏与人声分离;②音频切分——把分离后的人声路径填入”音频自动切分输入路径”,选择输出目录,点击”开启语音切割”,系统会按静音检测把长音频切分成 5–15 秒短句;③ASR 转写——在”中文批量离线 ASR 工具”中填入切分路径,选择 ASR 模型(FunASR、Paraformer 等),系统会生成对应文字与时间戳;④标注校对——打开”语音文本校对标注工具”,逐条核对文字与音频,修正错字与标点;⑤训练与推理——在”1-GPT-SoVITS-TTS”标签填写模型名,把切分目录与标注文件路径填好,依次点击”SSL 提取 → 语义 Token 提取 → 一键三连”,再到”1B-微调训练”按显存调 batch size,先后点”开启 SoVITS 训练”与”开启 GPT 训练”;⑥推理——切到”1C-TTS 推理”,选择训练好的模型,上传 5–10 秒参考音频、填参考文本与目标文本,点击”合成语音”。
高级技巧
显存 6GB 推荐 batch size=2、8GB 推 4、12GB 推 8,大 batch 容易爆显存;若中文 ASR 转写有错,可在标注阶段手动改正后再训练,文字准确率对最终发音至关重要;参考音频尽量选择与目标文本情感、语速一致的样本,生成的情感会向参考靠拢;跨语言推理时(中文训练、日文推理),目标文本最好加上对应语言标签;想批量合成可使用项目 api.py 启动的 FastAPI 服务,用 POST /tts 提交任务并返回 WAV 文件;长期使用建议用 Docker 部署 + 单独挂载模型目录,方便升级与多模型管理。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 开源自部署 | 0 | 完全免费,需自备 GPU(6GB+ 显存) |
| Colab 免费层 | 0 | Google 提供免费 T4 GPU,适合小样本体验 |
| AutoDL 租赁 | 约 ¥30–50/次训练 | 在线租用 4090 / A100,无需本地显卡 |
| 商业授权 | 视项目许可 | 代码 MIT,模型权重需遵循各权重作者声明,商用前请检查 |
竞品对比
| 维度 | GPT-SoVITS | CosyVoice(阿里开源) | Fish Speech(开源) |
|---|---|---|---|
| 价格 | 完全免费 | 完全免费 | 完全免费 |
| 核心优势 | 中文克隆极强、WebUI 完善、4 万 Star 社区 | 阿里达摩院、流式合成、多语言 | 70 万小时训练、低显存、跨语言 |
| 适合人群 | 中文创作者、配音师、爱好者 | 端到端语音系统、嵌入式 | 边缘部署、轻量场景 |
| 显存门槛 | 6GB+ | 4GB+ | 4GB+ |
优缺点
优点:
- 中文 TTS 与克隆效果在开源项目中处于第一梯队,接近商用水平
- WebUI 设计成熟,新手能跑通”上传音频→训练→推理”完整流程
- 跨语言推理(中英日韩粤)与情感控制能力强
- 社区活跃,教程丰富,Windows 一键启动对非技术用户友好
缺点:
- 训练质量高度依赖样本,需要干净人声 + 准确文字标注
- 模型权重许可需自行确认,部分预训练模型仅供研究使用
- 显存较低时训练时间长,大模型或长音频推理偏慢
- 商用合规需用户自行处理,名人/他人声音克隆涉及法律与伦理风险
常见问题
Q1: GPT-SoVITS 需要什么显卡? A1: 训练推荐 6GB+ 显存的 NVIDIA GPU(如 RTX 3060 笔记本),推理 4GB 即可,没有显卡可使用 Colab 免费 T4 或 AutoDL 在线租用 4090。
Q2: 可以商用吗?
A2: 代码遵循 MIT 协议,但预训练模型权重需遵循各权重作者的开源声明。建议商用前联系项目作者或阅读 docs/ 目录下的协议说明,确保使用合法。
Q3: 5 秒克隆和 1 分钟微调差多少? A3: 5 秒零样本适合”快速试听”与一次性效果,音色相似度约 70%–80%;1 分钟微调训练后,音色相似度可提升到 90% 以上,情感与口癖也更像原声,推荐做正式项目时使用。
总结建议
GPT-SoVITS 是当前中文社区最受欢迎的开源语音克隆项目,适合配音师、内容创作者、独立开发者和希望数据自主可控的中小团队。建议先用 Colab 跑通一遍小样本(30 秒素材)熟悉流程,确认中文效果满意后再投入更长时间与算力做正式训练;如果显存充足(12GB+),可以把训练数据扩到 5–10 分钟,效果会更稳定。商用前务必关注训练数据来源的合规性,避免使用名人或他人声音做商业化产品。
详细安装步骤(三大平台)
Windows 一键安装(数据来源:官方 2026-06-15):双击 go-webui.bat 会自动创建 conda 环境 GPTSoVits,安装 PyTorch CUDA 12.1、ffmpeg 等依赖,默认监听 http://127.0.0.1:9874,浏览器自动打开 UI;Ubuntu/Linux:bash install.sh(自动装 Miniconda + Python 3.10 + 依赖),python webui.py 启动,若需对外服务绑定 0.0.0.0;macOS 仅支持 CPU 推理(Apple Silicon 可用 MPS 后端加速 1.5–2x),训练建议走云端 GPU;Docker 镜像:docker run -it --gpus all -p 9874:9874 -v $PWD:/workspace xxx/gpt-sovits:cu121;Colab 免费层:打开 colab_webui.ipynb 顺序执行,Google 提供免费 T4(15GB 显存,4GB 配额限制,会话最长 12h),适合小样本体验;AutoDL 租赁:4090 约 ¥1.5/小时、A100 约 ¥7/小时,适合完整训练。前置依赖:Python 3.10、PyTorch 2.1+、ffmpeg、CUDA 11.8/12.1 驱动,Windows 用户建议先装 Visual Studio 2022 Build Tools。
模型训练参数详解
WebUI 训练标签分”1A-训练集格式化""1B-微调训练”(数据来源:官方 2026-06-15)。SoVITS 训练:总 epoch 默认 8,前 4 epoch 用较低学习率(1e-5),后 4 epoch 用 5e-6 + 0.005 weight_decay;batch size 6GB 显存建议 2、8GB 推 4、12GB 推 8、24GB+ 推 16;每 50 步保存一次 checkpoint;GPT 训练:总 epoch 默认 8,前 4 epoch 学习率 1e-5,后 4 epoch 5e-6;batch size 一般是 SoVITS 的一半(2GB/4GB/8GB);推荐步数组合:小样本(1 分钟) SoVITS 200 + GPT 200,中等(5 分钟) SoVITS 400 + GPT 300,大样本(10 分钟+) SoVITS 600 + GPT 400。推理参数:top_k 5、top_p 0.9、temperature 0.7 是经验默认值;中文播音降低 temperature 到 0.5–0.6,情感朗读提到 0.8–1.0;reference audio 选 5–10 秒情感与目标文本最接近的样本。
推理性能与实时率
在 RTX 4070 12GB 上,推理 100 字中文文本约 1.2–1.8 秒,实时率(RTF) 约 0.15–0.25(数据来源:官方 2026-06-15);RTX 3060 12GB 约 0.20–0.35;RTX 4090 24GB 约 0.08–0.12;A100 40GB 约 0.05–0.08;CPU-only(M2 Max)约 1.5–2.5(长文本难实时)。流式推理可通过 api.py 启动 FastAPI,POST /tts 返回 WAV;WebSocket 流式接口首字节延迟可控制在 200ms 以内,适合对话机器人。长音频生成(10 分钟以上)建议分段并行(每 2 分钟一段,GPU 并发 2–4 路),拼接时用 pydub 做 50ms 交叉淡化。
与 SoVITS 原版区别
原版 SoVITS(2023 年)是学者”CyanHall”的开源歌声/语音合成项目,需 30+ 分钟训练数据;GPT-SoVITS 关键创新:①引入 GPT 语义 Token(基于 VQ-VAE)替代传统 PPG 特征,大幅提升韵律自然度;②把”少样本”做到 1 分钟,3 分钟达实用水平;③WebUI 一体化,数据处理 + 训练 + 推理全流程;④中文 ASR(FunASR / Paraformer)切分内置,降低预处理门槛;⑤跨语言推理支持 5 种语言。代价是显存占用略高(6GB vs 4GB)、推理速度略慢(0.15 vs 0.10 RTF)。对纯英文项目,SoVITS 原版或 Tortoise 都可一战;对中文项目,GPT-SoVITS 仍是开源首选。
训练数据集建议
语种:中英混合训练可同时获得中英 TTS 能力,纯中文训练时建议保留 10–20% 英文 sample 防止英文发音崩坏;时长:1 分钟能跑通,5–10 分钟效果稳定,30+ 分钟边际收益递减;采样率:44.1kHz/16bit 单声道 WAV 即可(48kHz 仅在专业项目有意义);录制环境:近场 + 安静 + 无回声,推荐 30cm 内耳麦或领夹麦,SNR > 40dB;情感覆盖:尽量包含”陈述/疑问/感叹/快/慢”5 类情感样本,每类 20% 比例;文本准确率:ASR 转写后务必逐条校对,错字直接导致发音错误,这是社区公认的”训练质量第一瓶颈”。
参考资料
- GPT-SoVITS GitHub 仓库:https://github.com/RVC-Boss/GPT-SoVITS (数据来源:官方 2026-06-15)
- GPT-SoVITS Wiki 与 docs/ 协议说明:https://github.com/RVC-Boss/GPT-SoVITS/wiki (数据来源:官方 2026-06-15)
- Fish Speech 对比参考:https://github.com/fishaudio/fish-speech (数据来源:官方 2026-06-15)
- 阿里 CosyVoice 开源项目:https://github.com/FunAudioLLM/CosyVoice (数据来源:官方 2026-06-15)
- Colab WebUI 一键 Notebook:https://github.com/RVC-Boss/GPT-SoVITS/blob/main/colab_webui.ipynb (数据来源:官方 2026-06-15)
同分类推荐
AI音频 分类下的其他工具