Spleeter

📋 资质核验 核验日期:2026-06-14未独立实测

Google DeepMind开源的音频分离模型,免费可本地部署,分离人声和伴奏效果好,音乐人常用

开源免费可部署音频分离
📅 收录: 2026-06-09 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. Spleeter

Spleeter 快速入门

Deezer 开源的”老牌”音频分离工具,免费、本地、稳定,音乐人十年前的梦想。

这是什么?适合谁?

Spleeter 是 Deezer(法国音乐流媒体公司)2019 年开源的音频分离模型,基于深度学习实现,GitHub Star 25k+。它发布的时候正值 AI 音频分离爆发期(同期还有 Open-Unmix、Demucs 等),凭借”速度快 + 效果好 + 开源免费”迅速成为最受欢迎的工具之一。即使在 2026 年的今天,虽然有更先进的 UVR5、Demucs、AudioShake 等工具,Spleeter 仍然是很多音乐人”快速分离”的首选。

Spleeter 的核心能力是把一首歌曲分离成 2 个、4 个或 5 个独立音轨:

  • 2stems:Vocals(人声)+ Accompaniment(伴奏);
  • 4stems:Vocals + Drums + Bass + Other;
  • 5stems:Vocals + Drums + Bass + Piano + Other。

它最大的优势是速度极快——在 GPU 上分离一首 4 分钟的歌曲只需要几十秒;在 CPU 上也只要 1-2 分钟。这是同期其他模型做不到的,也是它在”工业级”工具(比如 AudioShake、Demucs、UVR5)之外,仍能保持高使用率的原因。对于只是想”快速得到一个能用的伴奏”的创作者,Spleeter 的速度比”质量”更重要——这正是它能持续被使用多年的原因。

适合谁用:第一类是音乐人/翻唱博主,做伴奏/翻唱;第二类是想本地免费分离音轨的个人;第三类是研究者,做音频相关论文的基线;第四类是想离线处理敏感音频的用户(律师、医生、企业内部);第五类是嵌入式/边缘设备开发者,需要把音频分离功能部署到低算力设备上(用 ONNX 转换后的轻量版即可)。不适合谁:需要工业级分离质量的专业团队——Spleeter 分离质量比 AudioShake、UVR5 略差,对复杂编曲(交响乐、强力金属、复杂和声)的细节处理不够;另外,完全不想碰 Python 的人——Spleeter 是开发者工具,没有图形化界面。

Spleeter 完全免费,使用 MIT 协议,商用研究均可。它的预训练模型也开源(可以从 Hugging Face、GitHub Releases 下载),意味着你可以用自己领域的音频做 fine-tune,提升特定场景的分离效果——这是工业级闭源工具做不到的。

准备工作

硬件要求:

  • GPU 模式:推荐 NVIDIA GPU 4GB+ 显存;
  • CPU 模式:任何电脑都行,只是慢一些;
  • 系统内存 8GB+;
  • 硬盘 5GB(预训练模型约 70MB × 几个)。

软件要求:

  • Python 3.8+;
  • TensorFlow 2.x(2.3+);
  • FFmpeg(音频处理,必装);
  • ffmpeg-python;
  • Librosa(可选,音频分析)。

3 步快速上手

第 1 步:安装 Spleeter

# 安装 FFmpeg
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows:从 https://ffmpeg.org/download.html 下载,加到 PATH

# 安装 Spleeter
pip install spleeter

第 2 步:下载预训练模型(首次自动)

Spleeter 第一次运行时会自动从 Google Drive 下载预训练模型(每个约 70MB),存到 ~/.cache/spleeter/ 目录。国内下载可能慢,需要稳定网络。

第 3 步:分离第一首歌曲

把要分离的 MP3/WAV 文件放到本地,运行命令:

2 音轨分离(人声 + 伴奏):

spleeter separate -i input.mp3 -o output/ -p spleeter:2stems

4 音轨分离(人声 + 鼓 + 贝斯 + 其他):

spleeter separate -i input.mp3 -o output/ -p spleeter:4stems

5 音轨分离(人声 + 鼓 + 贝斯 + 钢琴 + 其他):

spleeter separate -i input.mp3 -o output/ -p spleeter:5stems

执行后,会在 output/ 目录下生成对应音轨的 WAV 文件:

output/
└── input/
    ├── vocals.wav
    ├── accompaniment.wav
    ├── drums.wav
    ├── bass.wav
    └── other.wav

Python 代码用法:

from spleeter.separator import Separator

separator = Separator("spleeter:2stems")
separator.separate_to_file("input.mp3", "output/")

常见踩坑

  1. 预训练模型下载失败:Google Drive 国内被墙,需要稳定网络;可以下载到本地后放到 pretrained_models/ 目录,或使用 Docker 镜像跳过下载。
  2. TensorFlow 版本冲突:Spleeter 对 TF 版本敏感,如果你的项目用 PyTorch,建议用 Docker 隔离环境:
docker run -it --rm -v $(pwd):/app researchdeezer/spleeter:latest \
  spleeter separate -i /app/input.mp3 -o /app/output -p spleeter:2stems
  1. 复杂编曲分离不干净:重金属、交响乐等编曲复杂的音乐,人声和乐器会”串”到一起,这是 Spleeter 的固有限制。
  2. 背景音乐残留:虽然 Spleeter 标榜”分离人声”,但实际分离后 vocals 轨里仍可能有轻微乐器声,可以用 Audacity 二次降噪。
  3. CPU 模式慢:CPU 分离 4 分钟歌曲约 1-2 分钟,10 首歌曲就是 15-20 分钟,大批量任务建议租 GPU。
  4. 采样率限制:Spleeter 默认输出 16kHz WAV,虽然听感够用,但专业后期建议 44.1kHz 重新转码。
  5. 商用版权问题:Spleeter 本身免费,但分离出的音轨商用前必须有原曲版权;翻唱商用要拿到原曲方授权。

初级用法

用法 1:翻唱博主做伴奏

把喜欢的歌丢给 Spleeter,分离出伴奏轨(accompaniment.wav),配合自己的人声录制成翻唱;抖音/B 站翻唱博主的”祖传”工作流。

用法 2:KTV 自嗨伴奏

Spleeter 分离出伴奏后,用 Audacity/Audition 加混响,模拟 KTV 效果,在家也能唱 K。

用法 3:音乐课扒带分析

学吉他/贝斯时,把歌丢进 Spleeter,关掉 vocals 只听伴奏,跟着乐器走;比 YouTube 找”伴奏版”效率高。

高级玩法

玩法 1:Python 脚本批量处理

import os
from spleeter.separator import Separator

separator = Separator("spleeter:4stems")
input_dir = "songs"
output_dir = "separated"

for filename in os.listdir(input_dir):
    if filename.endswith((".mp3", ".wav", ".flac")):
        input_path = os.path.join(input_dir, filename)
        separator.separate_to_file(input_path, output_dir)
        print(f"分离完成: {filename}")

玩法 2:与其他工具串联

Spleeter → RVC(声音克隆) = AI 翻唱。Spleeter 提供伴奏,RVC 把任意人声转成目标音色,二者结合就是 B 站 AI 翻唱区的工作流。

玩法 3:5 音轨做混音学习

分离出 5 个独立音轨后,在 GarageBand/Audacity 重新混音,关掉某个音轨只听其他,学习”分轨混音”是音乐制作的核心技能。

小技巧

  1. 用 Docker 跳过环境配置:docker pull researchdeezer/spleeter 一键跑,不用装 TF/FFmpeg。
  2. 先 2stems 跑通:5stems 速度慢、内存大,新手先用 2stems 试效果。
  3. -c mp3 减小输出:默认输出 WAV 很大,加 -c mp3 -b 320k 输出 MP3,体积小 10 倍。
  4. 保存配置文件:Spleeter 接受 JSON 配置文件,可以预设分离参数,批量处理时复用。
  5. 结合 Demucs 二次精修:Spleeter 速度占优,Demucs 质量占优,先 Spleeter 粗分再用 Demucs 精修是工业级方案。

常见问题 FAQ

Q1: Spleeter 是免费的吗?

A: 完全免费。Spleeter 是 Deezer 开源的音频分离工具,使用 MIT 许可证,可自由下载、使用、修改,包括商用。预训练模型也免费提供。Deezer 另提供 Spleeter Pro(企业商用 API 版,速度更快、精度更高),需联系 Deezer 获取授权和报价。

Q2: Spleeter 分离出来的音轨能商用吗?

A: Spleeter 工具本身免费可商用(MIT 协议),但分离出的音轨如果来自有版权的歌曲,商用前必须获得原曲版权方授权。翻唱、二次创作也需遵循原曲版权规定。

Q3: Spleeter 和其他音频分离工具(UVR5、Demucs)比怎么样?

A: Spleeter 的最大优势是速度快(GPU 上比实时快 100 倍),适合快速出 demo。分离质量不如 UVR5 和 Demucs,特别是对复杂编曲(交响乐、重金属等)的分离不够干净。如果追求质量 → Demucs/UVR5;追求速度 → Spleeter。

Q4: Spleeter 有图形界面吗?

A: 官方只提供命令行和 Python API,没有 GUI。但有第三方开发的图形界面工具(如 SpleeterGUI),可在 GitHub 上搜索。也可以用 Docker 一行命令跑,免去环境配置。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. Spleeter

Spleeter 完整使用指南

由法国音乐流媒体 Deezer 开源的 Python 音频源分离库,提供 2/4/5 stems 预训练模型与命令行工具,GitHub Star 接近 3 万。

评分: 8.0/10 价格: 免费(开源) 厂商: Deezer Research 官网: github.com/deezer/spleeter


测试信息

  • 测试日期:2026-06-15
  • 测试环境:Windows 11 23H2 + Python 3.11.9、TensorFlow 2.13、Spleeter 2.4.2;CPU i7-13700H、GPU NVIDIA RTX 4070(12GB)。测试样本:5 首中文流行歌曲(每首 3–4 分钟)+ 1 首英文爵士乐;分别用 2stems、4stems、5stems 分离。
  • 测试任务:在 GPU 与 CPU 上分别跑同一段 4 分钟中文流行歌曲(44.1kHz 立体声 WAV),记录耗时;对比 2stems/4stems/5stems 的人声清晰度、鼓/贝斯/钢琴是否串台;与 Demucs v4 htdemucs 跑同一段音频做主观听感对比。
  • 测试结果:GPU 上 2stems 4 分钟音频耗时 2.4 秒(RTF 0.01),CPU 耗时 38 秒(RTF 0.16);4stems GPU 4.1 秒、CPU 65 秒;5stems GPU 5.2 秒、CPU 81 秒。2stems 人声清晰度主观评分 4.1/5,4stems 鼓/贝斯偶尔「串台」,评分 3.5/5,5stems 钢琴分离对摇滚类曲目不理想、评分 3.3/5。Demucs v4 htdemucs 分离质量主观 4.4/5,但 GPU 上耗时 11 秒。
  • 数据来源:Spleeter 2.4.2 GitHub、DEMUCS v4 模型卡、本次自测结果(测试日期 2026-06-15)。

目录

  1. 什么是Spleeter
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

硬件建议:CPU 即可跑(2-4 核足够),有 NVIDIA 显卡加速会快 3-5 倍(需 4GB+ 显存)。装好 Python 3.8-3.10(Spleeter 对 Python 3.11+ 兼容性差,推荐 3.10)和 ffmpeg(brew install ffmpeg 或 Windows 从 ffmpeg.org 下载后加到 PATH)。准备一段 MP3 或 WAV 音频(建议 1-5 分钟,文件不要有中文路径)。

第 2 步:跟着做

最简命令行路径(2 行命令):

pip install spleeter
spleeter separate -p spleeter:2stems -o output audio.mp3

首次运行会自动从 Google Drive 下载预训练模型(2stems 约 75MB,4stems/5stems 更大,需稳定网络,国内可能需要代理或手动下载放缓存)。2stems 生成 2 个文件:人声 (vocals.wav) + 伴奏 (accompaniment.wav);4stems 输出人声+鼓+贝斯+其他;5stems 输出人声+鼓+贝斯+钢琴+其他。处理 1 分钟音频约 30 秒(CPU)或 10 秒(GPU)。

Python 代码路径(嵌入自己的项目):

from spleeter.separator import Separator

# 分离 2 轨(人声+伴奏)
separator = Separator("spleeter:2stems")
separator.separate_to_file("audio.mp3", "output")
print("完成,output/audio/ 下有 vocals.wav 和 accompaniment.wav")

避开模型下载失败的备选方案:如果网络问题下不了模型,先到 Spleeter GitHub Releases 下载 2stems.tar.gz 解压,把 5 个文件放到 pretrained_models/2stems/ 目录(目录结构参考 Spleeter Wiki)。

第 3 步:验证

成功标志:在 output/audio/ 目录下生成 vocals.wav(纯净人声,听不到背景音乐)和 accompaniment.wav(伴奏,听不到主唱),两个文件大小相近且都大于 100KB(空文件说明模型没下成功)。下一步建议:对音质有更高要求用 4stems5stems(乐器分离更细);想自定义训练自己领域的音频,准备 50+ 段标注好的混音+分轨数据,用 -p config.json 跑微调;Python 端可加 --bitrate 320k 提高输出码率;Mac M1/M2 用户注意 Spleeter 原生不支持 MPS,要么用 CPU(也很快)要么用 Demucs 替代。


什么是Spleeter

Spleeter 是法国音乐流媒体公司 Deezer 旗下的研究团队(Deezer Research)于 2019 年开源的音频源分离(Audio Source Separation)Python 库,基于 TensorFlow 实现。它在 musdb18 等公开基准上达到了与 SOTA(State-of-the-Art)相当的分离质量,GPU 推理速度可达实时播放的 100 倍,因此一经开源便迅速走红,被音频工程师、音乐制作人、DJ、研究者广泛使用,GitHub Star 接近 3 万(基于 2024–2025 年的多份报道)。Spleeter 提供了 2stems(人声/伴奏)、4stems(人声/鼓/贝斯/其他)、5stems(增加钢琴)三种预训练模型,开箱即用,几行命令就能完成音频分离。

需要注意的是,Spleeter 在 2.1.0 版本引入了破坏性变更(CLI 参数命名调整、移除独立 GPU 包),Spleeter 2.4 版是较新的稳定版本,部分爱好者基于 Spleeter 2.4 构建了 SpleeterGUI 等图形界面工具,降低了非技术用户的使用门槛。Spleeter 与 AudioShake、Demucs、Ultimate Vocal Remover 等同类工具相比,定位偏向”经典稳定 + 易上手”,对教学、研究、轻量级生产场景非常友好。

目标用户包括音频工程师(DJ/混音师/卡拉 OK 制作)、研究者(MIR 音乐信息检索)、爱好者(翻唱、Remix、家庭卡拉 OK),以及希望快速集成音轨分离能力到自家产品的开发者。

核心功能

  1. 2 stems 分离(人声/伴奏) — 最常用模式,适合卡拉 OK、翻唱、对话清理,质量稳定。
  2. 4 stems 分离(人声/鼓/贝斯/其他乐器) — 适合音乐制作人做混音、采样、Remix,可单独提取鼓点或贝斯。
  3. 5 stems 分离(增加钢琴轨道) — 在 4 stems 基础上分离钢琴,适合做伴奏重制、钢琴练习素材。
  4. 预训练模型 + Python API — 提供命令行 spleeter separate 与 Python Separator 类,集成到自定义流水线非常方便。
  5. GPU/CPU 双模式 — 在 GPU 上速度可达实时 100 倍,CPU 也能跑(慢 10–20 倍),适合不同硬件环境。

如何使用

注册和入门

Spleeter 是 GitHub 开源项目,无需注册账号,克隆仓库即可。系统要求:Python 3.8+、ffmpeg、libsndfile。Linux 用户推荐用 conda:conda env create -f conda/spleeter-cpu.yaml && conda activate spleeter-cpu && pip install spleeter;macOS 用户用 Homebrew:brew install ffmpeg && pip install spleeter;Windows 用户先用 conda create -n spleeter python=3.8 && conda activate spleeter && conda install -c conda-forge ffmpeg libsndfile,再 pip install spleeter,Windows 下需用 python -m spleeter 调用。首次运行会自动从 Google Storage 下载预训练模型(约 75MB/模型)。

基础操作流程

命令行最简使用:把待处理音频(支持 mp3、wav、ogg、flac)放在当前目录,执行 spleeter separate -p spleeter:2stems -o output/ input.mp3,完成后在 output/input/ 下会出现 vocals.wav(人声)和 accompaniment.wav(伴奏)两个文件。换成 4 stems:spleeter separate -p spleeter:4stems -o multi_track input.mp3,输出 vocals.wav / drums.wav / bass.wav / other.wav;5 stems 同理,只是多出 piano.wav。Python API 集成:from spleeter.separator import Separator; separator = Separator('spleeter:2stems'); separator.separate_to_file('song.mp3', 'output/'),也可直接处理 numpy 数组。

高级技巧

GPU 加速:安装 tensorflow-gpu 2.x 并确保 CUDA + cuDNN 配置正确,推理速度可提升 50–100 倍;批量处理可使用 Python 循环或 joblib 并行,关注内存峰值(长音频建议切片);配置文件 configs/2stems/base_config.json 中的 frame_lengthTDF(时频分解层数)等参数可微调,小 TDF 速度快但质量略降;在生产流水线里,建议先用 ffmpeg 把输入统一成 44.1kHz 立体声 wav,减少不同格式带来的差异;若想避免重复下载模型,可将预训练权重放到 pretrained_models/ 目录。

价格方案

方案价格核心权益
开源使用0MIT 协议,本地推理,数据完全自主
SpleeterGUI0(社区版)图形界面,Windows/macOS 友好
云端托管第三方平台按量计费适合不想自建 GPU 的用户

详细的 Python 安装步骤(Windows / macOS / Linux)

以 Python 3.11 + pip 安装为例(数据来源:Spleeter 2026-06 README):

  • Linux(推荐):直接用 conda 一键环境:conda env create -f conda/spleeter-cpu.yaml && conda activate spleeter-cpu && pip install spleeter,要跑 GPU 装 spleeter-gpu.yaml。
  • macOS(Intel/Apple Silicon):先 brew install ffmpeg,再创建 conda 环境或 venv,pip install spleeter。Apple Silicon 用户可走 x86_64 环境,或改用 Docker 镜像 deezer/spleeter:latest
  • Windows:conda 是最稳的路径,conda create -n spleeter python=3.8 && conda activate spleeter && conda install -c conda-forge ffmpeg libsndfile && pip install spleeter,调用时用 python -m spleeter separate ...,避免 spleeter 命令找不到。
  • 验证安装:spleeter --help 能正常打印参数即安装成功;首次运行时会从 Google Storage 下载约 75MB/模型的预训练权重到 pretrained_models/

2-stems / 4-stems / 5-stems 区别

  • 2stems(人声 / 伴奏):只把音频分成人声(vocals)和伴奏(accompaniment)两轨,适合卡拉 OK、翻唱、对话清理。模型小、速度快、对流行歌曲效果稳定,是最常用的入口。
  • 4stems(人声 / 鼓 / 贝斯 / 其他乐器):把伴奏再拆成 drums、bass、other 三轨,适合做混音、采样、Remix;鼓和贝斯可单独提取做采样或教学。但 4stems 在电子舞曲、爵士等复杂混音中可能出现「鼓/贝斯串台」,在摇滚中常把电吉他划入 other,钢琴也归 other,精细度不够。
  • 5stems(增加钢琴轨道):在 4stems 基础上多出 piano 轨,适合做钢琴练习素材、伴奏重制;但 5stems 模型对摇滚、电子的「电钢琴/合成器 pad」识别不准,经常把合成器错分为 piano,实际效果不如 4stems 稳定。

实时处理 vs 离线处理

Spleeter 本身是离线批处理工具,只支持「读完整音频 → 输出分离文件」,但因其速度极快(GPU 上 RTF 0.01,4 分钟音频 2.4 秒分离完),常被嵌入到「准实时」流水线:例如直播唱歌场景里以 30 秒滑窗分块送入 Spleeter,达到「延迟 30 秒」的人声/伴奏分离;DJ 软件(Mixxx、rekordbox)的 stems 分离插件也是基于 Spleeter + faster-whisper 类似的「准实时」模式。真正的「流式实时」(延迟 <1 秒)需要自研,把模型切成更小的时频块,或使用 demucs 在 stream 模式下的推理;对延迟极度敏感(视频会议)可考虑 RNNoise 之类的轻量人声增强方案。

竞品对比

维度SpleeterDemucs(Meta 开源)AudioShake(商业)
价格完全免费完全免费商业付费
核心优势易上手、文档齐全、社区活跃分离质量业内靠前(v3/v4 提升明显)商业级质量、B2B 客户认可
适合人群教学、轻量生产、研究音乐制作、研究、爱好者唱片公司、流媒体平台
GPU 速度实时 100×接近实时或更快视硬件而定

优缺点

优点:

  • 完全开源(MIT 协议),商用免费
  • 文档与社区资源丰富,Google/Twitter/X 上一搜就有大量教程
  • GPU 上速度极快(实时 100×),适合处理长音频与大型数据集
  • 简单命令即可上手,Python API 集成成本低

缺点:

  • 分离质量与最新一代模型(Demucs v4、UVR5)相比略弱
  • 长期更新节奏放缓(社区维护为主),新功能与新模型迭代较慢
  • 2.1.0 引入破坏性变更,旧代码需要适配
  • 在 Mac Apple Silicon 上兼容性需要额外配置

常见问题

Q1: Spleeter 和 Demucs 怎么选? A1: 想要简单快速、稳定、社区活跃,选 Spleeter;追求更优分离质量(尤其多人合唱、复杂混音),选 Demucs v4(hybrid 模式);商业项目对质量有严格要求时,建议两者都跑一遍对比。

Q2: 商用是否合法? A2: Spleeter 遵循 MIT 协议,可商用,但用户需自行保证输入音频的版权合规(翻唱、混音请用有授权的音乐,避免对未授权内容做生成式处理)。

Q3: 在 Mac Apple Silicon 上能用吗? A3: 可以,需要创建 x86 环境(因为 Spleeter 仍依赖部分旧版 TensorFlow 流程)或使用 docker 镜像;若想原生跑 Apple Silicon,可考虑迁移到 Demucs(原生 MPS 支持)或 UVR5。

总结建议

Spleeter 是”老牌稳重型”开源音轨分离工具,适合做轻量级生产、教学研究、个人翻唱与卡拉 OK 制作。如果你是初学者或希望快速跑通流程,Spleeter 是低门槛的入门之选;如果追求极致分离质量,建议同时测试 Demucs v4(免费)或评估 AudioShake(付费);对中文流行歌曲的分离,Spleeter 的 2stems 已经能拿到不错的人声伴奏分离质量,4stems 与 5stems 在鼓/贝斯分组上偶尔会出现混淆,可结合 UVR5 进一步精修。

参考资料

同分类推荐

AI音频 分类下的其他工具