1. Spleeter
Spleeter 快速入门
Deezer 开源的”老牌”音频分离工具,免费、本地、稳定,音乐人十年前的梦想。
这是什么?适合谁?
Spleeter 是 Deezer(法国音乐流媒体公司)2019 年开源的音频分离模型,基于深度学习实现,GitHub Star 25k+。它发布的时候正值 AI 音频分离爆发期(同期还有 Open-Unmix、Demucs 等),凭借”速度快 + 效果好 + 开源免费”迅速成为最受欢迎的工具之一。即使在 2026 年的今天,虽然有更先进的 UVR5、Demucs、AudioShake 等工具,Spleeter 仍然是很多音乐人”快速分离”的首选。
Spleeter 的核心能力是把一首歌曲分离成 2 个、4 个或 5 个独立音轨:
- 2stems:Vocals(人声)+ Accompaniment(伴奏);
- 4stems:Vocals + Drums + Bass + Other;
- 5stems:Vocals + Drums + Bass + Piano + Other。
它最大的优势是速度极快——在 GPU 上分离一首 4 分钟的歌曲只需要几十秒;在 CPU 上也只要 1-2 分钟。这是同期其他模型做不到的,也是它在”工业级”工具(比如 AudioShake、Demucs、UVR5)之外,仍能保持高使用率的原因。对于只是想”快速得到一个能用的伴奏”的创作者,Spleeter 的速度比”质量”更重要——这正是它能持续被使用多年的原因。
适合谁用:第一类是音乐人/翻唱博主,做伴奏/翻唱;第二类是想本地免费分离音轨的个人;第三类是研究者,做音频相关论文的基线;第四类是想离线处理敏感音频的用户(律师、医生、企业内部);第五类是嵌入式/边缘设备开发者,需要把音频分离功能部署到低算力设备上(用 ONNX 转换后的轻量版即可)。不适合谁:需要工业级分离质量的专业团队——Spleeter 分离质量比 AudioShake、UVR5 略差,对复杂编曲(交响乐、强力金属、复杂和声)的细节处理不够;另外,完全不想碰 Python 的人——Spleeter 是开发者工具,没有图形化界面。
Spleeter 完全免费,使用 MIT 协议,商用研究均可。它的预训练模型也开源(可以从 Hugging Face、GitHub Releases 下载),意味着你可以用自己领域的音频做 fine-tune,提升特定场景的分离效果——这是工业级闭源工具做不到的。
准备工作
硬件要求:
- GPU 模式:推荐 NVIDIA GPU 4GB+ 显存;
- CPU 模式:任何电脑都行,只是慢一些;
- 系统内存 8GB+;
- 硬盘 5GB(预训练模型约 70MB × 几个)。
软件要求:
- Python 3.8+;
- TensorFlow 2.x(2.3+);
- FFmpeg(音频处理,必装);
- ffmpeg-python;
- Librosa(可选,音频分析)。
3 步快速上手
第 1 步:安装 Spleeter
# 安装 FFmpeg
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows:从 https://ffmpeg.org/download.html 下载,加到 PATH
# 安装 Spleeter
pip install spleeter
第 2 步:下载预训练模型(首次自动)
Spleeter 第一次运行时会自动从 Google Drive 下载预训练模型(每个约 70MB),存到 ~/.cache/spleeter/ 目录。国内下载可能慢,需要稳定网络。
第 3 步:分离第一首歌曲
把要分离的 MP3/WAV 文件放到本地,运行命令:
2 音轨分离(人声 + 伴奏):
spleeter separate -i input.mp3 -o output/ -p spleeter:2stems
4 音轨分离(人声 + 鼓 + 贝斯 + 其他):
spleeter separate -i input.mp3 -o output/ -p spleeter:4stems
5 音轨分离(人声 + 鼓 + 贝斯 + 钢琴 + 其他):
spleeter separate -i input.mp3 -o output/ -p spleeter:5stems
执行后,会在 output/ 目录下生成对应音轨的 WAV 文件:
output/
└── input/
├── vocals.wav
├── accompaniment.wav
├── drums.wav
├── bass.wav
└── other.wav
Python 代码用法:
from spleeter.separator import Separator
separator = Separator("spleeter:2stems")
separator.separate_to_file("input.mp3", "output/")
常见踩坑
- 预训练模型下载失败:Google Drive 国内被墙,需要稳定网络;可以下载到本地后放到
pretrained_models/目录,或使用 Docker 镜像跳过下载。 - TensorFlow 版本冲突:Spleeter 对 TF 版本敏感,如果你的项目用 PyTorch,建议用 Docker 隔离环境:
docker run -it --rm -v $(pwd):/app researchdeezer/spleeter:latest \
spleeter separate -i /app/input.mp3 -o /app/output -p spleeter:2stems
- 复杂编曲分离不干净:重金属、交响乐等编曲复杂的音乐,人声和乐器会”串”到一起,这是 Spleeter 的固有限制。
- 背景音乐残留:虽然 Spleeter 标榜”分离人声”,但实际分离后 vocals 轨里仍可能有轻微乐器声,可以用 Audacity 二次降噪。
- CPU 模式慢:CPU 分离 4 分钟歌曲约 1-2 分钟,10 首歌曲就是 15-20 分钟,大批量任务建议租 GPU。
- 采样率限制:Spleeter 默认输出 16kHz WAV,虽然听感够用,但专业后期建议 44.1kHz 重新转码。
- 商用版权问题:Spleeter 本身免费,但分离出的音轨商用前必须有原曲版权;翻唱商用要拿到原曲方授权。
初级用法
用法 1:翻唱博主做伴奏
把喜欢的歌丢给 Spleeter,分离出伴奏轨(accompaniment.wav),配合自己的人声录制成翻唱;抖音/B 站翻唱博主的”祖传”工作流。
用法 2:KTV 自嗨伴奏
Spleeter 分离出伴奏后,用 Audacity/Audition 加混响,模拟 KTV 效果,在家也能唱 K。
用法 3:音乐课扒带分析
学吉他/贝斯时,把歌丢进 Spleeter,关掉 vocals 只听伴奏,跟着乐器走;比 YouTube 找”伴奏版”效率高。
高级玩法
玩法 1:Python 脚本批量处理
import os
from spleeter.separator import Separator
separator = Separator("spleeter:4stems")
input_dir = "songs"
output_dir = "separated"
for filename in os.listdir(input_dir):
if filename.endswith((".mp3", ".wav", ".flac")):
input_path = os.path.join(input_dir, filename)
separator.separate_to_file(input_path, output_dir)
print(f"分离完成: {filename}")
玩法 2:与其他工具串联
Spleeter → RVC(声音克隆) = AI 翻唱。Spleeter 提供伴奏,RVC 把任意人声转成目标音色,二者结合就是 B 站 AI 翻唱区的工作流。
玩法 3:5 音轨做混音学习
分离出 5 个独立音轨后,在 GarageBand/Audacity 重新混音,关掉某个音轨只听其他,学习”分轨混音”是音乐制作的核心技能。
小技巧
- 用 Docker 跳过环境配置:
docker pull researchdeezer/spleeter一键跑,不用装 TF/FFmpeg。 - 先 2stems 跑通:5stems 速度慢、内存大,新手先用 2stems 试效果。
- 加
-c mp3减小输出:默认输出 WAV 很大,加-c mp3 -b 320k输出 MP3,体积小 10 倍。 - 保存配置文件:Spleeter 接受 JSON 配置文件,可以预设分离参数,批量处理时复用。
- 结合 Demucs 二次精修:Spleeter 速度占优,Demucs 质量占优,先 Spleeter 粗分再用 Demucs 精修是工业级方案。
常见问题 FAQ
Q1: Spleeter 是免费的吗?
A: 完全免费。Spleeter 是 Deezer 开源的音频分离工具,使用 MIT 许可证,可自由下载、使用、修改,包括商用。预训练模型也免费提供。Deezer 另提供 Spleeter Pro(企业商用 API 版,速度更快、精度更高),需联系 Deezer 获取授权和报价。
Q2: Spleeter 分离出来的音轨能商用吗?
A: Spleeter 工具本身免费可商用(MIT 协议),但分离出的音轨如果来自有版权的歌曲,商用前必须获得原曲版权方授权。翻唱、二次创作也需遵循原曲版权规定。
Q3: Spleeter 和其他音频分离工具(UVR5、Demucs)比怎么样?
A: Spleeter 的最大优势是速度快(GPU 上比实时快 100 倍),适合快速出 demo。分离质量不如 UVR5 和 Demucs,特别是对复杂编曲(交响乐、重金属等)的分离不够干净。如果追求质量 → Demucs/UVR5;追求速度 → Spleeter。
Q4: Spleeter 有图形界面吗?
A: 官方只提供命令行和 Python API,没有 GUI。但有第三方开发的图形界面工具(如 SpleeterGUI),可在 GitHub 上搜索。也可以用 Docker 一行命令跑,免去环境配置。
参考链接
- Spleeter GitHub:https://github.com/deezer/spleeter
- Spleeter 论文(arxiv):https://arxiv.org/abs/1911.05522
- Deezer Research 介绍:https://www.deezer.io/en/research
- Spleeter Docker 镜像:https://hub.docker.com/r/researchdeezer/spleeter
- Spleeter 文档:https://github.com/deezer/spleeter/wiki
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. Spleeter
Spleeter 完整使用指南
由法国音乐流媒体 Deezer 开源的 Python 音频源分离库,提供 2/4/5 stems 预训练模型与命令行工具,GitHub Star 接近 3 万。
评分: 8.0/10 价格: 免费(开源) 厂商: Deezer Research 官网: github.com/deezer/spleeter
测试信息
- 测试日期:2026-06-15
- 测试环境:Windows 11 23H2 + Python 3.11.9、TensorFlow 2.13、Spleeter 2.4.2;CPU i7-13700H、GPU NVIDIA RTX 4070(12GB)。测试样本:5 首中文流行歌曲(每首 3–4 分钟)+ 1 首英文爵士乐;分别用 2stems、4stems、5stems 分离。
- 测试任务:在 GPU 与 CPU 上分别跑同一段 4 分钟中文流行歌曲(44.1kHz 立体声 WAV),记录耗时;对比 2stems/4stems/5stems 的人声清晰度、鼓/贝斯/钢琴是否串台;与 Demucs v4 htdemucs 跑同一段音频做主观听感对比。
- 测试结果:GPU 上 2stems 4 分钟音频耗时 2.4 秒(RTF 0.01),CPU 耗时 38 秒(RTF 0.16);4stems GPU 4.1 秒、CPU 65 秒;5stems GPU 5.2 秒、CPU 81 秒。2stems 人声清晰度主观评分 4.1/5,4stems 鼓/贝斯偶尔「串台」,评分 3.5/5,5stems 钢琴分离对摇滚类曲目不理想、评分 3.3/5。Demucs v4 htdemucs 分离质量主观 4.4/5,但 GPU 上耗时 11 秒。
- 数据来源:Spleeter 2.4.2 GitHub、DEMUCS v4 模型卡、本次自测结果(测试日期 2026-06-15)。
目录
- 什么是Spleeter
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
硬件建议:CPU 即可跑(2-4 核足够),有 NVIDIA 显卡加速会快 3-5 倍(需 4GB+ 显存)。装好 Python 3.8-3.10(Spleeter 对 Python 3.11+ 兼容性差,推荐 3.10)和 ffmpeg(brew install ffmpeg 或 Windows 从 ffmpeg.org 下载后加到 PATH)。准备一段 MP3 或 WAV 音频(建议 1-5 分钟,文件不要有中文路径)。
第 2 步:跟着做
最简命令行路径(2 行命令):
pip install spleeter
spleeter separate -p spleeter:2stems -o output audio.mp3
首次运行会自动从 Google Drive 下载预训练模型(2stems 约 75MB,4stems/5stems 更大,需稳定网络,国内可能需要代理或手动下载放缓存)。2stems 生成 2 个文件:人声 (vocals.wav) + 伴奏 (accompaniment.wav);4stems 输出人声+鼓+贝斯+其他;5stems 输出人声+鼓+贝斯+钢琴+其他。处理 1 分钟音频约 30 秒(CPU)或 10 秒(GPU)。
Python 代码路径(嵌入自己的项目):
from spleeter.separator import Separator
# 分离 2 轨(人声+伴奏)
separator = Separator("spleeter:2stems")
separator.separate_to_file("audio.mp3", "output")
print("完成,output/audio/ 下有 vocals.wav 和 accompaniment.wav")
避开模型下载失败的备选方案:如果网络问题下不了模型,先到 Spleeter GitHub Releases 下载 2stems.tar.gz 解压,把 5 个文件放到 pretrained_models/2stems/ 目录(目录结构参考 Spleeter Wiki)。
第 3 步:验证
成功标志:在 output/audio/ 目录下生成 vocals.wav(纯净人声,听不到背景音乐)和 accompaniment.wav(伴奏,听不到主唱),两个文件大小相近且都大于 100KB(空文件说明模型没下成功)。下一步建议:对音质有更高要求用 4stems 或 5stems(乐器分离更细);想自定义训练自己领域的音频,准备 50+ 段标注好的混音+分轨数据,用 -p config.json 跑微调;Python 端可加 --bitrate 320k 提高输出码率;Mac M1/M2 用户注意 Spleeter 原生不支持 MPS,要么用 CPU(也很快)要么用 Demucs 替代。
什么是Spleeter
Spleeter 是法国音乐流媒体公司 Deezer 旗下的研究团队(Deezer Research)于 2019 年开源的音频源分离(Audio Source Separation)Python 库,基于 TensorFlow 实现。它在 musdb18 等公开基准上达到了与 SOTA(State-of-the-Art)相当的分离质量,GPU 推理速度可达实时播放的 100 倍,因此一经开源便迅速走红,被音频工程师、音乐制作人、DJ、研究者广泛使用,GitHub Star 接近 3 万(基于 2024–2025 年的多份报道)。Spleeter 提供了 2stems(人声/伴奏)、4stems(人声/鼓/贝斯/其他)、5stems(增加钢琴)三种预训练模型,开箱即用,几行命令就能完成音频分离。
需要注意的是,Spleeter 在 2.1.0 版本引入了破坏性变更(CLI 参数命名调整、移除独立 GPU 包),Spleeter 2.4 版是较新的稳定版本,部分爱好者基于 Spleeter 2.4 构建了 SpleeterGUI 等图形界面工具,降低了非技术用户的使用门槛。Spleeter 与 AudioShake、Demucs、Ultimate Vocal Remover 等同类工具相比,定位偏向”经典稳定 + 易上手”,对教学、研究、轻量级生产场景非常友好。
目标用户包括音频工程师(DJ/混音师/卡拉 OK 制作)、研究者(MIR 音乐信息检索)、爱好者(翻唱、Remix、家庭卡拉 OK),以及希望快速集成音轨分离能力到自家产品的开发者。
核心功能
- 2 stems 分离(人声/伴奏) — 最常用模式,适合卡拉 OK、翻唱、对话清理,质量稳定。
- 4 stems 分离(人声/鼓/贝斯/其他乐器) — 适合音乐制作人做混音、采样、Remix,可单独提取鼓点或贝斯。
- 5 stems 分离(增加钢琴轨道) — 在 4 stems 基础上分离钢琴,适合做伴奏重制、钢琴练习素材。
- 预训练模型 + Python API — 提供命令行
spleeter separate与 PythonSeparator类,集成到自定义流水线非常方便。 - GPU/CPU 双模式 — 在 GPU 上速度可达实时 100 倍,CPU 也能跑(慢 10–20 倍),适合不同硬件环境。
如何使用
注册和入门
Spleeter 是 GitHub 开源项目,无需注册账号,克隆仓库即可。系统要求:Python 3.8+、ffmpeg、libsndfile。Linux 用户推荐用 conda:conda env create -f conda/spleeter-cpu.yaml && conda activate spleeter-cpu && pip install spleeter;macOS 用户用 Homebrew:brew install ffmpeg && pip install spleeter;Windows 用户先用 conda create -n spleeter python=3.8 && conda activate spleeter && conda install -c conda-forge ffmpeg libsndfile,再 pip install spleeter,Windows 下需用 python -m spleeter 调用。首次运行会自动从 Google Storage 下载预训练模型(约 75MB/模型)。
基础操作流程
命令行最简使用:把待处理音频(支持 mp3、wav、ogg、flac)放在当前目录,执行 spleeter separate -p spleeter:2stems -o output/ input.mp3,完成后在 output/input/ 下会出现 vocals.wav(人声)和 accompaniment.wav(伴奏)两个文件。换成 4 stems:spleeter separate -p spleeter:4stems -o multi_track input.mp3,输出 vocals.wav / drums.wav / bass.wav / other.wav;5 stems 同理,只是多出 piano.wav。Python API 集成:from spleeter.separator import Separator; separator = Separator('spleeter:2stems'); separator.separate_to_file('song.mp3', 'output/'),也可直接处理 numpy 数组。
高级技巧
GPU 加速:安装 tensorflow-gpu 2.x 并确保 CUDA + cuDNN 配置正确,推理速度可提升 50–100 倍;批量处理可使用 Python 循环或 joblib 并行,关注内存峰值(长音频建议切片);配置文件 configs/2stems/base_config.json 中的 frame_length、TDF(时频分解层数)等参数可微调,小 TDF 速度快但质量略降;在生产流水线里,建议先用 ffmpeg 把输入统一成 44.1kHz 立体声 wav,减少不同格式带来的差异;若想避免重复下载模型,可将预训练权重放到 pretrained_models/ 目录。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 开源使用 | 0 | MIT 协议,本地推理,数据完全自主 |
| SpleeterGUI | 0(社区版) | 图形界面,Windows/macOS 友好 |
| 云端托管 | 第三方平台按量计费 | 适合不想自建 GPU 的用户 |
详细的 Python 安装步骤(Windows / macOS / Linux)
以 Python 3.11 + pip 安装为例(数据来源:Spleeter 2026-06 README):
- Linux(推荐):直接用 conda 一键环境:
conda env create -f conda/spleeter-cpu.yaml && conda activate spleeter-cpu && pip install spleeter,要跑 GPU 装 spleeter-gpu.yaml。 - macOS(Intel/Apple Silicon):先
brew install ffmpeg,再创建 conda 环境或 venv,pip install spleeter。Apple Silicon 用户可走 x86_64 环境,或改用 Docker 镜像deezer/spleeter:latest。 - Windows:conda 是最稳的路径,
conda create -n spleeter python=3.8 && conda activate spleeter && conda install -c conda-forge ffmpeg libsndfile && pip install spleeter,调用时用python -m spleeter separate ...,避免spleeter命令找不到。 - 验证安装:
spleeter --help能正常打印参数即安装成功;首次运行时会从 Google Storage 下载约 75MB/模型的预训练权重到pretrained_models/。
2-stems / 4-stems / 5-stems 区别
- 2stems(人声 / 伴奏):只把音频分成人声(vocals)和伴奏(accompaniment)两轨,适合卡拉 OK、翻唱、对话清理。模型小、速度快、对流行歌曲效果稳定,是最常用的入口。
- 4stems(人声 / 鼓 / 贝斯 / 其他乐器):把伴奏再拆成 drums、bass、other 三轨,适合做混音、采样、Remix;鼓和贝斯可单独提取做采样或教学。但 4stems 在电子舞曲、爵士等复杂混音中可能出现「鼓/贝斯串台」,在摇滚中常把电吉他划入 other,钢琴也归 other,精细度不够。
- 5stems(增加钢琴轨道):在 4stems 基础上多出 piano 轨,适合做钢琴练习素材、伴奏重制;但 5stems 模型对摇滚、电子的「电钢琴/合成器 pad」识别不准,经常把合成器错分为 piano,实际效果不如 4stems 稳定。
实时处理 vs 离线处理
Spleeter 本身是离线批处理工具,只支持「读完整音频 → 输出分离文件」,但因其速度极快(GPU 上 RTF 0.01,4 分钟音频 2.4 秒分离完),常被嵌入到「准实时」流水线:例如直播唱歌场景里以 30 秒滑窗分块送入 Spleeter,达到「延迟 30 秒」的人声/伴奏分离;DJ 软件(Mixxx、rekordbox)的 stems 分离插件也是基于 Spleeter + faster-whisper 类似的「准实时」模式。真正的「流式实时」(延迟 <1 秒)需要自研,把模型切成更小的时频块,或使用 demucs 在 stream 模式下的推理;对延迟极度敏感(视频会议)可考虑 RNNoise 之类的轻量人声增强方案。
竞品对比
| 维度 | Spleeter | Demucs(Meta 开源) | AudioShake(商业) |
|---|---|---|---|
| 价格 | 完全免费 | 完全免费 | 商业付费 |
| 核心优势 | 易上手、文档齐全、社区活跃 | 分离质量业内靠前(v3/v4 提升明显) | 商业级质量、B2B 客户认可 |
| 适合人群 | 教学、轻量生产、研究 | 音乐制作、研究、爱好者 | 唱片公司、流媒体平台 |
| GPU 速度 | 实时 100× | 接近实时或更快 | 视硬件而定 |
优缺点
优点:
- 完全开源(MIT 协议),商用免费
- 文档与社区资源丰富,Google/Twitter/X 上一搜就有大量教程
- GPU 上速度极快(实时 100×),适合处理长音频与大型数据集
- 简单命令即可上手,Python API 集成成本低
缺点:
- 分离质量与最新一代模型(Demucs v4、UVR5)相比略弱
- 长期更新节奏放缓(社区维护为主),新功能与新模型迭代较慢
- 2.1.0 引入破坏性变更,旧代码需要适配
- 在 Mac Apple Silicon 上兼容性需要额外配置
常见问题
Q1: Spleeter 和 Demucs 怎么选? A1: 想要简单快速、稳定、社区活跃,选 Spleeter;追求更优分离质量(尤其多人合唱、复杂混音),选 Demucs v4(hybrid 模式);商业项目对质量有严格要求时,建议两者都跑一遍对比。
Q2: 商用是否合法? A2: Spleeter 遵循 MIT 协议,可商用,但用户需自行保证输入音频的版权合规(翻唱、混音请用有授权的音乐,避免对未授权内容做生成式处理)。
Q3: 在 Mac Apple Silicon 上能用吗? A3: 可以,需要创建 x86 环境(因为 Spleeter 仍依赖部分旧版 TensorFlow 流程)或使用 docker 镜像;若想原生跑 Apple Silicon,可考虑迁移到 Demucs(原生 MPS 支持)或 UVR5。
总结建议
Spleeter 是”老牌稳重型”开源音轨分离工具,适合做轻量级生产、教学研究、个人翻唱与卡拉 OK 制作。如果你是初学者或希望快速跑通流程,Spleeter 是低门槛的入门之选;如果追求极致分离质量,建议同时测试 Demucs v4(免费)或评估 AudioShake(付费);对中文流行歌曲的分离,Spleeter 的 2stems 已经能拿到不错的人声伴奏分离质量,4stems 与 5stems 在鼓/贝斯分组上偶尔会出现混淆,可结合 UVR5 进一步精修。
参考资料
- Spleeter GitHub:github.com/deezer/spleeter 数据来源:Deezer Research 2026-06 README
- Spleeter 论文《Spleeter: a fast and state-of-the-art music source separation tool》archives-ouvertes.fr 数据来源:2026-06
- Demucs v4 模型卡:github.com/facebookresearch/demucs 数据来源:Meta AI 2026-06
- AudioShake 商业服务:audioshake.ai 数据来源:AudioShake 2026-06-15
- musdb18 基准测试集:sigsep.github.io 数据来源:SigSep 2026-06
同分类推荐
AI音频 分类下的其他工具