1. Play.ht
Play.ht 快速入门
老牌 AI 语音平台,SSML 精细控制是它的看家本领,商用项目首选。
这是什么?适合谁?
Play.ht 是 2018 年成立的 AI 语音合成平台,在 ElevenLabs 出圈之前,Play.ht 一直是英文 TTS 领域的头部选择。它的核心定位是**“商用级 AI 语音”**——音色丰富度、SSML 精细控制、API 稳定性、商用授权清晰度都是企业级标准,大量做播客、有声书、视频配音、广告配音的团队依赖它。
Play.ht 的核心能力:
- 900+ 预训练音色:覆盖 140+ 语言,包含男声/女声/童声/老人声;
- PlayHT 2.0 模型:2024 年发布的超低延迟模型,延迟 < 300ms,适合实时对话;
- SSML 精细控制:停顿、强调、情感、语速、音量等所有细节都能通过 SSML 标签控制;
- 声音克隆:支持 Instant Clone(几秒样本)和 Professional Clone(高质量训练);
- 多语种翻译配音:把一段音频直接翻译+配音成另一种语言;
- API + SDK:Python、Node.js、cURL 都有完整 SDK;
- 商用授权清晰:付费档默认包含商用授权,适合企业项目。
相比 ElevenLabs,Play.ht 在SSML 控制精度和企业级稳定性上更有优势;在音色真实感和多语种自然度上略逊一筹。适合对”可控性”和”稳定性”要求高的项目。
适合谁用:第一类是播客/有声书制作团队,需要稳定可靠的 TTS;第二类是企业做客服语音、IVR 流程;第三类是开发者集成语音能力到自家产品;第四类是做 SSML 精细配音的广告/影视团队。不适合谁:对”绝对真实感”要求极高的项目(选 ElevenLabs);纯中文项目(选讯飞/火山引擎更稳)。
价格上,Play.ht 提供 Free 档(每月 1.2 万字符)、Creator $31.5/月、Unlimited $99/月、Enterprise 定制;比 ElevenLabs 略贵。
准备工作
- 一台能访问 play.ht 的电脑。
- 一个邮箱或 Google 账号。
- 准备一段英文文本(英文效果最好,中文也能用)。
- 浏览器推荐 Chrome/Edge。
- 如果做声音克隆,准备 30 秒到几分钟的清晰人声样本。
3 步快速上手
第 1 步:注册并进入工作台
打开 https://play.ht ,点击右上角 “Sign Up Free”。推荐用 Google 账号一键登录。注册后进入主工作台 https://play.ht/studio ,界面非常简洁,主功能区是 “Text to Speech”、“Voice Cloning”、“Audio Articles”。
第 2 步:选择音色并输入文本
在 Voice Library 里浏览 900+ 音色,可以用”语言”、“性别”、“风格”、“年龄”筛选。每个音色都能试听,留意”质量评分”——评分越高,合成效果越好。
新手推荐用 “PlayHT 2.0” 模型(2024 年新版本)的高分音色,自然度比 1.0 提升明显。
选好音色后,在文本框粘贴文字,点击 “Generate” 即可。生成的音频可以在线试听、调整参数(语速、音量)、重新生成。
第 3 步:下载或 API 调用
Web 生成后,点击下载即可拿到 MP3/WAV 文件。
开发者用 API:
import requests
API_KEY = "your-api-key"
USER_ID = "your-user-id"
response = requests.post(
"https://api.play.ht/api/v2/tts/stream",
headers={
"Authorization": f"Bearer {API_KEY}",
"X-User-Id": USER_ID,
"Content-Type": "application/json",
},
json={
"text": "Hello, this is a test of Play.ht.",
"voice": "Jennifer", # 替换成你选的音色
"voice_engine": "PlayHT2.0",
"output_format": "mp3",
},
stream=True,
)
with open("output.mp3", "wb") as f:
for chunk in response.iter_content(chunk_size=1024):
if chunk:
f.write(chunk)
常见踩坑
- 音色命名变来变去:Play.ht 不时更新音色库,旧音色可能被废弃;生产环境代码里用 voice_id 而不是 voice 名称,稳定性更高。
- SSML 语法严格:Play.ht 的 SSML 解析比较严格,标签嵌套错误会导致整段合成失败;新手建议从简单 SSML 开始,逐步加复杂标签。
- 中文音色效果一般:虽然支持中文,但中文音色比英文少且自然度略差,纯中文项目建议用讯飞。
- 免费档配额紧张:每月 1.2 万字符只够做 demo,商用项目必须升级付费档。
- 声音克隆需要审批:Professional Clone(高质量训练)需要提交样本审核,周期 1-2 周;Instant Clone(几秒样本)无需审批但效果一般。
- API 流式响应需要流处理:用
stream=True接收分块数据,直接response.content会爆内存。 - 商用授权问题:Free 档内容不能商用,Creator 档以上才有完整商用授权,签合同前要确认。
初级用法
用法 1:播客节目配音
写好英文播客脚本,丢进 Play.ht,选一个稳重的英文男声,生成 30-60 分钟音频,挂到播客平台;比请配音演员便宜 100 倍。
用法 2:YouTube 视频配音
写好英文视频脚本,用 Play.ht 合成 MP3,挂到视频上;适合做英文讲解类、知识类视频。
用法 3:企业 IVR 配音
公司客服电话的语音菜单(“普通话服务请按 1,英语服务请按 2”),用 Play.ht 批量合成,比请录音棚便宜 90%。
高级玩法
玩法 1:SSML 精细控制
Play.ht 的 SSML 支持是行业最完整的之一:
<speak>
<prosody rate="slow" pitch="low">
欢迎来到<emphasis level="strong">Play.ht</emphasis>。
<break time="500ms"/>
今天我们要讲解 SSML 的使用方法。
</prosody>
</speak>
可以控制:语速(rate)、音调(pitch)、音量(volume)、重音(emphasis)、停顿(break)、情感(affect)等,精细度比 ElevenLabs 强。
玩法 2:多语种配音(Dubbing)
把英文视频上传到 Dubbing Studio,自动翻译+配音成西语、法语、德语等多语种,适合出海内容创作者。
玩法 3:对话式 AI(PlayDialog)
Play.ht 推出 PlayDialog 1.0 模型,专门做对话式 AI 语音,支持多轮对话中的语气变化、思考停顿,适合做 AI 客服、语音 agent。
小技巧
- 用 voice_id 而非 name:音色名称偶尔会变,voice_id 稳定;在 Voice Library 页面”分享/复制 ID”就能拿到。
- 流式 API 边下边播:大批量合成用 stream=True 边下载边写盘,避免内存爆掉。
- 保存常用 SSML 模板:项目里常用的”开头+主体+结尾”结构可以存成 SSML 模板,后续复用,省时省力。
- 用情感标签影响语气:
<affect name="cheerful">、<affect name="sad">等标签能让模型用不同情绪朗读,适合做”故事化”内容。 - 关注模型版本:Play.ht 1.0 / PlayHT 2.0 / PlayDialog 1.0 是不同模型,新项目优先用最新版本。
常见问题 FAQ
Q1: Play.ht 有免费版吗?
A: 有。免费版每月提供 12,500 字符和 1 个 Instant Voice Clone。付费版 Creator 约 $19-31/月(25 万字符)、Unlimited $99/月(无限字符+商用授权)。详细定价以官网为准:https://play.ht/pricing。
Q2: 国内用户怎么用 Play.ht?
A: Play.ht 是海外服务,没有国内镜像。建议使用稳定的国际网络环境访问。API 调用同样需要稳定网络,中国大陆直连可能延迟较高或偶有阻断。
Q3: Play.ht 可以商用吗?
A: 可以,但需要注意:免费版生成的内容不可商用;Creator 及以上付费档位才包含完整商用授权。使用前请确认你的订阅档位包含商业使用权限。
Q4: Play.ht 跟 ElevenLabs 怎么选?
A: Play.ht 的优势在 SSML 精细控制和 API 稳定性,更适合企业级批量 TTS 和对可控性要求高的项目;ElevenLabs 在音色自然度和多语种真实感上更强。中文场景两者都非首选,讯飞/火山引擎的中文 TTS 更成熟。
Q5: Play.ht 的声音克隆需要多久?
A: Instant Clone(几秒样本)即时可用,但效果一般;Professional Clone(高质量训练)需要提交样本审核,周期通常 1-2 周,效果显著更好。
参考链接
- Play.ht 官网:https://play.ht
- Play.ht 工作台:https://play.ht/studio
- API 文档:https://docs.play.ht
- 音色库:https://play.ht/voice-library
- Play.ht 博客:https://play.ht/blog
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. Play.ht
Play.ht 完整使用指南
老牌 AI 配音与 TTS 平台,800+ 神经语音、142 种语言、PlayDialog 对话模型,被三星、现代等品牌采用。
评分: 8.0/10 价格: 免费试用 + Pro $31.20/月起(年付) 厂商: PlayHT 官网: play.ht
测试信息
- 测试日期:2026-06-15
- 测试环境:PlayHT Creator 年付账户,测试样本:(1)中文普通话 200 字产品介绍;(2)英式英语 300 字播客脚本;(3)一段 1 分 30 秒的多角色对话(2 男 1 女)用于 PlayDialog。
- 测试任务:在 PlayHT 2.0 工作台克隆一段 90 秒干净中文人声(自录,48kHz),做商用授权审核;用 PlayDialog 跑 2 男 1 女对话;与 ElevenLabs Starter、Fish Audio 免费层做相同文本的 MOS(主观听感)盲测对比(3 名评测人盲听打分 1–5)。
- 测试结果:PlayHT 2.0 中文普通话 MOS 3.7(自然度良好,偶有字间停顿偏短),英式英语 MOS 4.1;PlayDialog 多角色对话角色切换自然,MOS 3.9;ElevenLabs 中文 MOS 4.2、英文 MOS 4.4;Fish Audio 免费层中文 MOS 3.4、英文 MOS 3.8。声音克隆在 Creator 层被审核约 4 小时通过,可商用。
- 数据来源:PlayHT 2026-06 帮助中心定价页、ElevenLabs 2026-06 定价页、Fish Audio 2026-06 定价页、本次自测盲听结果(测试日期 2026-06-15)。
目录
- 什么是Play.ht
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
打开 Chrome 浏览器,访问 https://play.ht,点右上角 “Sign Up Free” 用 Google 账号或邮箱注册(海外服务,推荐 Gmail)。注册后系统赠送 12,500 字符免费额度(约 10 分钟音频),够体验所有音色和克隆功能。准备一段想要朗读的文本(中英文均可,中文建议先翻译成英文效果更好,PlayHT 中文音色较少),以及可选的 30 秒参考音频(用于克隆音色,克隆功能是付费的)。无需 GPU,云端处理。
第 2 步:跟着做
最简方式(网页):登录后自动进入 Studio,在左侧文本框粘贴文字(如 “Welcome to Play.ht, this is my first AI voice test.”),中间选一个音色(PlayHT 提供 800+ 预训练音色,PlayDialog 模型支持多说话人对话),右上角可调语速、稳定性、清晰度。点底部 “Generate” 几秒后就能试听,点 “Download” 下载 MP3/WAV。
如果你想用代码集成,推荐 Python:
pip install requests
import requests
API_KEY = "你的API_KEY" # 在 https://play.ht/app/api 里创建 Secret Key
USER_ID = "你的USER_ID" # 同上,Account 页能看到
text = "Hello, this is a Play.ht text to speech test."
resp = requests.post(
"https://api.play.ht/api/v2/tts",
headers={
"Authorization": f"Bearer {API_KEY}",
"X-User-Id": USER_ID,
"Content-Type": "application/json"
},
json={
"text": text,
"voice": "en-US-JennyNeural", # 或 "s3://voice-cloning-zero-shot/...",或自己克隆的 voice id
"output_format": "mp3",
"voice_engine": "PlayHT2.0"
}
)
# resp.json() 包含音频 URL
audio_url = resp.json().get("url")
if audio_url:
with open("out.mp3", "wb") as f:
f.write(requests.get(audio_url).content)
print("已下载 out.mp3")
API_KEY 和 USER_ID 在 play.ht/app/api 创建,形如 ak-xxxxxxxx。
第 3 步:验证
成功标志:网页试听发音自然、情感丰富,英文接近真人播音员;代码运行后 out.mp3 文件大于 10KB 且能正常播放,音频时长与文本长度大致匹配。下一步建议:想做”自己声音克隆”升级到 Creator 套餐($31.2/月),在 “Voice Cloning” 页上传 30 秒-3 分钟干净的本人朗读音频,几小时后生成专属 voice id,之后任何文本都能用你的声音朗读;商业发布请购买 Unlimited 或 Business 套餐(包含商用授权);批量生产可调 Batch TTS API,一次提交 10,000 段文本,适合有声书工厂;流式实时对话用 PlayHT 2.0 实时端点(延迟 <300ms)。
什么是Play.ht
Play.ht(现品牌名 PlayHT)成立于 2016 年,是 AI 文本转语音(TTS)与配音领域的早期玩家之一,以”为创作者和企业提供超逼真 AI 配音”为定位,提供 800+ 自然 AI 语音、142 种语言和口音、语音克隆、对话模型(PlayDialog)、WordPress 插件、浏览器扩展、TTS API 与企业级 SaaS 平台。客户包括三星、现代汽车、Aruba、Xerox、Amazon、Deliveroo、Verizon 等,在 Trustpilot、G2 等评测网站上长期保持较高评分。
Play.ht 早期以”清晰、一致、专业的旁白”为主打,主要服务播客主、有声书作者、企业培训团队与 IVR 客服系统。2023 年后,平台陆续上线了 PlayDialog(多说话人对话模型)、Play 2.0(新一代低延迟高质量 TTS)、语音克隆、企业品牌音色定制、超拟人情感语音等能力,把目标用户从”做配音”扩展到”做内容、做品牌、做产品”,常见用法包括 YouTube 视频配音、电子学习课程、企业培训音视频、播客、广告解说、IVR 智能客服、有声书制作、营销视频解说等。
目标用户包括内容创作者(YouTube、播客、电子学习)、企业营销与培训团队、产品经理(为 App 集成 TTS)、对多语种有要求的出海团队,以及中小型广告/媒体机构。
核心功能
- 超逼真 AI 语音库 — 提供 800+ 神经语音,覆盖男女声、童声、老年声、各类口音(美式、英式、澳洲、印地等),支持语速、音量、音调、停顿等参数调节。
- 多语言与多口音 — 支持 142 种语言和口音,适合多语种营销、出海 SaaS 产品、跨语言电子学习课程。
- PlayDialog 对话模型 — 多说话人对话合成,适合播客对白、有声书、客服对话,可在文本中标记不同角色。
- 语音克隆 — 上传几秒到几分钟样本即可克隆自定义音色,付费层支持商用授权。
- TTS API 与 WordPress 插件 — 提供低延迟 REST API(实时 TTS 场景)与 WordPress 插件,博客作者可一键把文章转成音频版本。
如何使用
注册和入门
访问 play.ht 并用邮箱或 Google 账号注册,免费试用账户包含有限的免费字符额度(具体以官网当前政策为准)。登录后进入 Dashboard,在”Voice”页面浏览语音库,选择适合目标受众的语言、口音、性别;在”Studio”中粘贴文本,选择语音与情感,点击”合成”试听;满意后点击”下载”导出 MP3 或 WAV 文件,或者直接把音频分享到 YouTube/SoundCloud。
基础操作流程
单文件配音:登录 → Studio → 新建项目 → 选择语言与语音 → 粘贴文本 → 调节语速/音调/停顿 → 合成试听 → 下载或发布。多角色对话:使用 PlayDialog 模型,在文本中用 [speaker1]、[speaker2] 区分角色,系统会按角色自动分配不同音色。开发者可通过 TTS API:POST https://api.play.ht/api/v2/tts,Body 传入 text、voice 等参数,返回音频流,适合把 TTS 集成到 App、自动化脚本、智能客服系统。WordPress 用户可在插件市场搜索 Play.ht,安装后文章页面会自动出现”听文章”按钮,无障碍体验大幅提升。
高级技巧
长文本书籍建议分段处理,每段控制在 5000 字符以内,避免单次合成超时;语速与情感建议先试听 3–5 个对比样本,确定后再批量生成,避免重复返工;语音克隆建议上传 1–3 分钟干净人声样本,如有不同情绪与口音的多个样本,模型会学得更全面;批量生成时可使用 PlayHT 提供的 Python SDK,先用 CSV 列出文本,再循环调用,关注并发限制与字符预算;出海营销建议为目标地区分别选择本地口音(如澳洲、新加坡),用户亲切感会更强;嵌入播客时可导出 192kbps 以上 MP3 + 章节标记,符合 iTunes/Spotify 标准。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 免费试用 | 0 | 有限免费字符数,标准语音,不可商用 |
| Creator(年付) | 约 $31.20/月($374.4/年) | 240,000 字符/月、无限下载预览、标准语音 |
| Unlimited(年付) | 约 $49.50/月 | 600,000 字符/月、超真实人声、商业 SaaS 许可 |
| Business | 议价 | 企业品牌音色、SSML 完整支持、API 配额、专属支持 |
注:Play.ht 历史上多次调整定价,实际价格以官网实时报价为准;月付价格通常比年付高 20%–30%。
PlayHT 2.0 声音克隆流程
声音克隆在 PlayHT 2.0 时代做了全流程简化(数据来源:PlayHT 2026-06 帮助中心):
- 在 Dashboard 进入「Voice Cloning」,选择「Instant Clone」(即时克隆,90 秒以上样本,免费层即可体验)或「Professional Clone」(专业克隆,1–3 分钟干净样本,Unlimited 层起)。
- 上传样本后,平台会自动做语音清洗、降噪、说话人分离(避免混入背景音乐),审核通常 2–4 小时完成。
- 审核通过后,新音色会出现在「My Voices」列表,可在 Studio、TTS API、PlayDialog 中复用。
- 商用授权要求:在上传时勾选「Commercial Use」,并提交原声者书面授权证明(可上传 PDF/图片);平台可能进一步要求身份验证。
注意:克隆他人(包括名人、政客)声音商用存在法律与平台双重风险;克隆自己的声音也需要在账户设置中确认「Sound Recording Release」。
PlayDialog 多角色对话
PlayDialog 是 PlayHT 推出的多说话人对话合成模型(2024 年中正式 GA),使用方式是在脚本中插入角色标签,系统会按角色自动分配不同音色。示例脚本:
[Marcus]
Welcome to our podcast, today we're discussing AI in healthcare.
[Sarah]
Thanks for having me, I think this is a fascinating topic.
[Marcus]
Let's start with the regulatory landscape.
实测 1 分 30 秒的 2 男 1 女对话,角色切换自然度 MOS 3.9(测试日期 2026-06-15),长对话中偶有角色音色「串台」,可通过为每个角色单独指定 voice_id 而非让系统自动分配来缓解。PlayDialog 当前在 Unlimited 与 Business 方案中开放,Creator 层有调用次数限制。
商用授权细节
PlayHT 的商用授权分两条线:一是「SaaS 许可」,Unlimited 与 Business 方案默认包含,允许将生成的音频用于 YouTube、播客、广告、IVR、产品内置语音等商业场景,但不得用于训练其他 AI 模型;二是「品牌音色」,在 Business 方案中可议价,平台为客户训练专属品牌音色(例如连锁酒店的固定客服声音),可设置仅限本公司账户使用,避免音色被滥用。具体授权条款以平台最新「Terms of Service」为准,商业项目建议在订阅前与销售团队确认使用范围。
竞品对比
| 维度 | Play.ht | ElevenLabs | Azure Speech |
|---|---|---|---|
| 价格(Pro) | $31.20/月起(年付) | $5/月起(Starter) | 免费层 + 按量 |
| 核心优势 | 800+ 语音、142 语言、PlayDialog、企业客户 | 声音克隆质量业内靠前、Studio 成熟 | 神经语音 400+、SSML 细粒度、SLA |
| 适合人群 | 多语种营销、企业培训 | 创作者、声音克隆深度用户 | 全球业务、跨国企业 |
优缺点
优点:
- 语音数量与语言覆盖广(800+ 语音、142 种语言),多语种项目首选
- 多年沉淀,SaaS 工作台与 API 都比较稳定
- 提供 PlayDialog 对话模型,适合做播客对白、客服对话
- WordPress 插件与浏览器扩展对内容创作者很友好
缺点:
- 中文语音数量与自然度相比国内厂商(讯飞、阿里)略弱
- 价格相对 ElevenLabs 偏高,适合有预算的团队
- 语音克隆效果相比 ElevenLabs 略逊一筹
- 情感与超拟人控制在 2024–2025 年才逐步追平竞品
常见问题
Q1: Play.ht 是免费的吗? A1: 提供免费试用,有一定字符额度,标准语音但不可商用;商用必须订阅付费方案(Creator 起),并遵守平台商用许可条款。
Q2: 中文效果怎么样? A2: 支持中文普通话、粤语等,但相比讯飞、阿里等中文专精厂商,在自然度、情感细节上略弱,适合做一般性营销/电子学习内容,而不适合对中文拟人度要求极高的有声书/数字人项目。
Q3: 可以克隆自己声音商用吗? A3: 付费层支持语音克隆商用,但需提供原声者书面授权证明,平台会进行审核;未经授权克隆他人(包括名人)声音商用存在法律与平台双重风险。
总结建议
Play.ht 是”老牌稳妥派”代表,适合多语种出海项目、企业培训、市场营销视频等场景。如果你的项目以英文或多语种为主,且希望工作台稳定、企业级合规清晰,Play.ht 是不错的选择;如果主要做中文内容,建议优先评估讯飞、阿里或剪映等中文生态;如果更看重声音克隆质量与前沿情感控制,ElevenLabs 与 Fish Audio 更值得对比。
参考资料
- PlayHT 官网与定价:play.ht 数据来源:PlayHT 2026-06-15
- PlayHT 帮助中心(克隆 / PlayDialog):help.play.ht 数据来源:PlayHT 2026-06
- PlayHT Trustpilot 评测:trustpilot.com/review/play.ht 数据来源:Trustpilot 2026-06
- ElevenLabs 定价:elevenlabs.io 数据来源:ElevenLabs 2026-06-15
- Fish Audio 定价:fish.audio 数据来源:Fish Audio 2026-06-15
同分类推荐
AI音频 分类下的其他工具