1. AudioShake
AudioShake 快速入门
一键把人声、鼓、贝斯、钢琴全部分干净,音乐人和翻唱博主的秘密武器。
这是什么?适合谁?
AudioShake 是一家总部在美国的 AI 音频技术公司,核心产品是基于深度学习的音源分离(Source Separation)平台。它的技术能把一首完整的歌曲在几秒到几十秒内,自动拆成多个独立音轨——人声(Vocals)、鼓(Drums)、贝斯(Bass)、钢琴(Piano)、吉他(Guitar) 等,每条音轨都能单独下载。
这种”音轨分离”的能力在音乐产业里需求很大:翻唱歌手需要伴奏(KTV 没人唱的时候自己清唱);音乐制作人需要做 remix、sample;影视后期需要把对白从背景音乐里拎出来;版权代理需要做内容审查。AudioShake 的工业级分离质量在业内是公认的”靠谱”,环球音乐、华纳、Netflix 都是它的客户。
适合谁用:第一类是音乐人/翻唱博主,做伴奏/翻唱必备;第二类是影视/广告后期,做对白修复、混音;第三类是音乐版权代理,做内容审查;第四类是想做”AI 翻唱”项目的开发者(配合 RVC/SO-VITS-SANG 等声音克隆工具)。不适合谁:只是想偶尔玩一下的小白——AudioShake 是付费工具,按分钟计费,没有免费档。
价格上,AudioShake 主要面向企业(B2B),也提供个人创作者档(订阅制 + 按分钟付费),具体价格见官网。
准备工作
- 一台能访问 audioshake.com 的电脑(海外服务,可能需要稳定网络环境)。
- 一个邮箱账号用于注册。
- 准备好要分离的音频文件(MP3/WAV/FLAC 均可,建议 320kbps MP3 或无损 WAV)。
- 单首歌曲时长建议在 5 分钟以内,过大文件上传慢且消耗更多额度。
- 准备好支付方式(订阅或按分钟计费)。
3 步快速上手
第 1 步:注册并获取 API Key
打开 https://www.audioshake.com ,点击 “Get Started” 或 “Sign Up”。个人用户用邮箱注册即可,注册后进入 Dashboard。AudioShake 提供 Web 界面和 API 两种使用方式:
- Web 界面:适合单首歌曲手动上传、试听、下载;
- API:适合开发者批量处理,集成到自己的工具里。
Web 入门最快,推荐新手先用 Web 跑通流程。
第 2 步:上传音频文件
在 Dashboard 页面点击 “Upload”,把要分离的 MP3/WAV 拖进上传区。系统会自动开始分析音轨,几秒到几十秒内完成。AudioShake 会显示分离进度条,完成后你能在结果区看到 4-12 条独立音轨(具体看订阅档位)。
支持的分离类型(以最常见的 “Multitrack” 档为例):
- Vocals(人声)
- Drums(鼓)
- Bass(贝斯)
- Guitar(吉他)
- Piano(钢琴)
- Other(其他乐器)
第 3 步:下载分离后的音轨
点击 “Download” 即可下载单条或多条音轨。Web 界面可以直接试听分离效果(切换”原曲 vs 人声”听差别),这点对翻唱博主选伴奏非常友好。
如果你想用 API 批量处理,可以用 Python 客户端:
import requests
API_KEY = "your-api-key"
headers = {"Authorization": f"Bearer {API_KEY}"}
# 上传文件
with open("song.mp3", "rb") as f:
response = requests.post(
"https://api.audioshake.com/v1/jobs",
headers=headers,
files={"file": f},
data={"type": "multitrack"},
)
job_id = response.json()["id"]
# 轮询任务状态
import time
while True:
status = requests.get(
f"https://api.audioshake.com/v1/jobs/{job_id}",
headers=headers,
).json()
if status["state"] == "completed":
break
time.sleep(5)
# 下载音轨
for stem in status["stems"]:
print(stem["name"], stem["url"])
常见踩坑
- 文件质量影响分离效果:低码率 MP3(128kbps 以下)分离后人声会有明显噪声,建议用 320kbps MP3 或无损 WAV。
- 某些复杂编曲分离不干净:交响乐、强力金属等复杂编曲里,鼓+吉他+贝斯常常有重叠,分离后会有”残留感”,这是行业普遍难题。
- 商用授权问题:AudioShake 分离后的音轨,商用前必须确认你拥有原曲的版权;如果用翻唱做商业发布,需要拿到原曲方的授权。
- API 调用频率限制:按分钟计费时,大批量调用前先估算成本,避免一晚上花掉几百美元。
- 上传大文件慢:超过 30MB 的音频上传时间长,建议先用 ffmpeg 压到合理大小:
ffmpeg -i input.flac -b:a 320k -ac 2 output.mp3
- 翻唱版权风险:用分离出来的伴奏做翻唱,如果发布到 YouTube/Spotify,平台会自动通过 Content ID 识别并可能下架或抽成,这点要提前规划。
初级用法
用法 1:翻唱博主的伴奏提取
把喜欢的歌丢进 AudioShake,下载 Vocals-stem(用来学歌)+ 伴奏 stem(用来翻唱),剩下的工作交给 GarageBand/Audacity 合成。
用法 2:抖音翻唱视频配伴奏
把热曲丢进 AudioShake,导出高质量伴奏,直接做翻唱视频,比在 K 歌软件录的伴奏清晰得多。
用法 3:音乐课扒带分析
音乐老师/学生扒带时,可以用 AudioShake 把”人声”stem 静音,只听乐器声,学吉他/贝斯/鼓的演奏细节。
高级玩法
玩法 1:Remix / Mashup
把两首歌的”鼓 stem” 抽出来拼成新节奏,把”贝斯 stem” 抽出来叠加到别的歌上,做出从未存在过的 mashup;这是国外 DJ 圈子非常流行的玩法。AudioShake 的多轨分离精度高,抽出来的 stem 干净度比大多数”开源工具”好,做出来的 mashup 听起来更”专业”。
玩法 2:AI 翻唱(RVC/SO-VITS 配合)
分离出伴奏 + RVC 训练好的声音模型 = AI 翻唱(用林俊杰的声音唱周杰伦的歌)。AudioShake 提供高质量伴奏,RVC/SO-VITS-SANG 提供声音克隆,二者结合就是现在抖音/B 站上”AI 翻唱”的标配工作流。需要注意的是:商用发布前必须拿到原曲方和”被克隆声音”本人的双重授权,否则有版权风险。
玩法 3:对白修复与本地化
影视后期把对白从背景音乐里分离出来,降噪、修复后重新配音,做外语本地化版本;Netflix 的多语言配音工作流经常用这种技术。AudioShake 的 Dialogue 模型专门针对人声优化,在嘈杂的电影原声中也能提取出干净的对白轨,远胜通用模型。
小技巧
- 优先上传 WAV/FLAC 无损文件:对 AI 分离来说,源文件质量直接决定输出质量,别用 128kbps MP3。
- 选择正确的分离档位:Multitrack 适合流行/摇滚,Solo Vocal 适合单纯抽人声,Dialogue 适合影视对白,按场景选。
- 用 Audacity 二次处理:分离后的音轨如果还有轻微底噪,可以用 Audacity 的 Noise Reduction 工具再清一遍。
- 批量任务用 API:Web 界面适合偶尔使用,如果要处理几十首歌,直接用 API 更高效,配合 Python 脚本做队列。
- 记下参数:不同歌曲的最佳分离参数(采样率、声道数)不同,处理同类型歌曲时复用参数,效率提升明显。
参考链接
- AudioShake 官网:https://www.audioshake.com
- AudioShake 文档:https://docs.audioshake.com
- AudioShake API 参考:https://docs.audioshake.com/reference/api-overview
- AudioShake 客户案例:https://www.audioshake.com/customers
- AudioShake 博客(技术解读):https://www.audioshake.com/blog
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. AudioShake
AudioShake 完整使用指南
来自美国音乐科技公司 AudioShake 的 B2B 音频分离引擎,被环球、迪士尼、华纳等唱片公司用于母带还原与本地化。
评分: 8.0/10 价格: 商业付费(按量/订阅) 厂商: AudioShake 官网: audioshake.ai
目录
- 什么是AudioShake
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
打开 Chrome 浏览器,访问 https://www.audioshake.ai,点击右上角 “Try Free” 注册账号(可用 Google 或邮箱)。准备一段 30 秒左右的 MP3 或 WAV 音频(任意歌曲、播客片段均可,文件大小建议小于 20MB)。注册审核通常 1 个工作日内通过,通过后会在邮箱收到 Dashboard 登录链接和 API Key。无需 GPU,无需安装客户端,所有处理都在 AudioShake 云端完成。
第 2 步:跟着做
登录 Dashboard 后,点击左侧 “Stems” → “New Project”,填写项目名称,选择模型(2stems 适合”人声+伴奏”二轨分离,5stems 适合”人声+鼓+贝斯+钢琴+其他”五轨分离),然后把准备好的 MP3 拖到上传区。点击 “Submit” 提交任务,系统会自动调度 GPU 节点,30 秒音频通常 1-2 分钟内完成。完成后在项目页能看到 stems 列表,点击任意一条 stem 即可在线试听,点击 “Download” 就能下载 WAV 单独轨,也可以一键下载全部 ZIP 打包。
如果你喜欢用代码,也可以在终端调用官方 REST API:
curl -X POST https://api.audioshake.ai/v1/separate \
-H "Authorization: Bearer YOUR_API_KEY" \
-F "file=@song.mp3" \
-F "model=5stems" \
-F "format=wav"
返回 JSON 中的 output_urls 字段就是各 stem 的下载链接,有效期 24 小时。
第 3 步:验证
成功标志:网页端能直接播放分离后的纯净人声轨(听不到背景音乐),或下载的 vocals.wav 用 Audacity 打开后波形清晰。下载完 ZIP 后,通常包含 vocals.wav / drums.wav / bass.wav / piano.wav / other.wav 五个文件。下一步建议:把 vocals.wav 导入自己的 DAW(Audacity/Logic/FL Studio)做翻唱伴奏,或上传到 ElevenLabs 进一步做语音克隆。如需批量处理,查看官方 API 文档 用 Python SDK 写并发脚本。
什么是AudioShake
AudioShake 是一家位于美国旧金山的 AI 音频技术公司,成立于 2019 年,2023 年完成 270 万美元种子轮融资,2025 年完成由 Shine Capital 领投、Thomson Reuters Ventures 等跟投的 1400 万美元 A 轮融资,累计融资约 1700 万美元。公司的核心产品是基于深度学习的音频源分离(stem separation)技术,能够从一段混合音频中拆分出独立的乐器轨、人声轨、对话轨、背景音乐轨与音效轨,在母带重制、Dolby Atmos 沉浸式混音、影视对话清理、播客转写、体育赛事转播等场景有广泛应用。
AudioShake 早期以 B2B 为主,客户名单包括环球音乐集团(UMG)、迪士尼音乐集团、华纳音乐集团、华纳兄弟探索、BET、NFL Films 等,以及大多数 Mag7 科技公司。2024 年起,公司通过官方网站 audioshake.ai 开放自助试用入口,降低中小型音频工作者、独立音乐人、内容创作者的使用门槛。在业务定位上,AudioShake 把自己描述为”音频领域的基础层”,目标是让任何音频都像文本或图像一样可编辑、可搜索、可编程。
目标用户包括音乐厂牌的母带工程师、影视后期团队、播客制作人、流媒体平台的版权合规团队、体育联盟的版权清理团队,以及希望用 AI 工具做卡拉 OK、混音和翻唱的独立创作者。
核心功能
- 乐器音轨分离(Instrument Stems) — 将一首立体声或单声道混音分离为人声(Vocals)、鼓(Drums)、贝斯(Bass)、吉他(Guitar)、钢琴(Piano)等独立轨道,用于母带重制、伴奏制作、Dolby Atmos 与 Sony 360 Reality Audio 沉浸式混音。
- 对话/音乐/音效分离(Dialogue Cleanup) — 从影视对白、体育解说、播客混音中提取干净的对话轨,客户报告可将 ASR 转写准确率提升 25% 以上,常用于自动字幕、配音与转录。
- 多说话人分离(Multi-Speaker) — 2025 年推出的高分辨率多说话人分离引擎,可在多人重叠对话场景中把每位说话人的声音单独提取,服务于广播、新闻采访、无障碍字幕。
- 歌词转录与时间对齐(Lyric Transcription) — 自动识别歌曲歌词,并按字符或词级别与音频时间轴对齐,支持导出 LRC 或 JSON 格式,方便卡拉 OK 字幕、歌词网站。
- B2B API 与本地化部署 — 提供 REST API 和私有部署两种交付方式,大型客户(唱片公司、流媒体平台)可在自己数据中心运行模型,保证内容不外流。
如何使用
注册和入门
访问 audioshake.ai 即可在首页点击”Sample”或”Demo”试听官方样例。正式使用需在官网注册企业账号,提供邮箱、公司名与用途说明,审核通过后获得 API Key 与 Dashboard 登录入口。个人创作者可使用网页版上传音频直接体验分离效果,文件支持 MP3、WAV、AIFF、FLAC,单文件上限与付费方案挂钩。试用版通常提供有限时长(例如每月几分钟)的免费处理额度,够体验分离质量。
基础操作流程
第一步,登录 Dashboard,在”Stems”页面选择模型(2stems / 4stems / 5stems / Multi-Speaker / Dialogue),上传音频文件并填写项目名称;第二步,系统自动调度 GPU 节点进行推理,根据时长通常在数十秒到几分钟内完成,完成后可在网页端直接预览各分离轨;第三步,选择导出格式(分轨 WAV 或打包 ZIP),也可以通过 REST API 将处理结果直接拉回自有存储。开发者可通过 POST /v1/separate 端点提交任务,使用 multipart/form-data 携带音频文件,在返回的 JSON 中获得各 stem 的下载链接,适合批量自动化。
高级技巧
对于母带重制场景,建议在分离前先对源文件做轻度降噪与响度归一化(LUFS 标准化),这样模型对人声与鼓组的判定更稳定;在影视对白清理场景,可以先用 Dialogue 模型拿到干净人声,再用第三方降噪器(如 iZotope RX)做残留噪声处理;批量处理时可使用官方 Python SDK 编写并发任务,但需关注并发配额(QPS)以免触发限流。对于体育赛事直播这种强实时场景,推荐与 AI-Media 的 LEXI Voice 配合使用,AudioShake 负责分离评论声,LEXI Voice 负责多语言翻译与重混,二者已于 2025 年达成战略合作。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 试用/免费 | 0 | 数分钟月度处理额度,标准模型,仅供评估 |
| Creator | 约 $30–$50/月(以官网为准) | 个人创作者订阅,适合做翻唱、卡拉 OK、短视频混剪 |
| Pro | 约 $200–$500/月 | 中小工作室,更高处理时长、并发与商用授权 |
| Enterprise | 议价 | 大型唱片公司、流媒体平台,含私有部署、SLA、专属支持 |
注:AudioShake 官网不公开详细价格表,具体金额需联系销售或登录 Dashboard 后查看;按量计费(per minute of audio)也是常见模式,适合用量波动大的客户。
竞品对比
| 维度 | AudioShake | Demucs (Meta 开源) | iZotope RX |
|---|---|---|---|
| 价格 | 商业付费 | 免费开源 | 商业付费(数百美元) |
| 核心优势 | 唱片公司级母带还原质量、Multi-Speaker 等企业级模型 | 免费、可本地部署、模型可二次训练 | 影视后期全套音频修复与降噪工具集 |
| 适合人群 | 唱片公司、流媒体平台、影视后期 | 研究者、爱好者、技术型用户 | 专业音频后期工程师 |
| 实时性 | 支持离线批处理 + 直播合作 | 仅离线推理 | 离线批处理 |
优缺点
优点:
- 行业认可度高,环球、迪士尼、华纳等大客户背书
- 母带还原质量好,被多家唱片公司用于老专辑重制(如 Nina Simone《Little Girl Blue》)
- 模型覆盖场景广,既可做乐器分离,也可做对话清理与多说话人分离
- 提供 B2B API 与私有部署两种交付方式,数据可不出企业
缺点:
- 面向 B2B 为主,个人订阅价格相对较高,免费额度较少
- 文档与价格透明度有限,大量信息需要联系销售获取
- 实时直播场景仍依赖合作伙伴(例如 AI-Media)落地,自身不提供端到端直播产品
- 中文资料与本地化支持相对有限,英文 Dashboard 为主
常见问题
Q1: AudioShake 的分离效果到底好不好? A1: 官方报告在 musdb18 等公开基准上 SDR 指标处于行业较优水平;用户实测母带还原和对话清理场景表现稳健,但不同歌曲/录音差异较大,建议先用试听样例或试处理自有的代表性音频再决定是否订阅。
Q2: 处理版权敏感的母带是否安全? A2: AudioShake 提供私有部署与严格的企业 NDA 流程,大型客户通常选择在自己环境内运行模型,以避免原文件离开公司网络,具体合规条款需在合同中约定。
Q3: 与免费开源工具(Demucs、Spleeter)相比值得付费吗? A3: 取决于场景。对于母带还原、影视对话清理、母带重制等高要求场景,AudioShake 的多模型与质量调优能省下大量人工时间;对于个人翻唱或学习用途,Demucs/Spleeter 这类免费工具已经够用。
总结建议
AudioShake 是目前商业音频分离赛道里最被唱片公司与流媒体平台认可的产品之一,适合预算充足、对质量与合规要求高的专业团队。如果是个人创作者做翻唱、混音或短视频副歌提取,可以先用 Demucs/Spleeter 等免费工具试水,确认流程跑通后再评估是否升级到 AudioShake 的付费方案;如果是唱片厂牌、流媒体平台或体育联盟这种需要批量处理版权母带与直播音频的机构,AudioShake 的企业级能力与合作伙伴生态是值得认真评估的选项。
同分类推荐
AI音频 分类下的其他工具