Play.ht

📋 资质核验 核验日期:2026-06-14未独立实测

商用AI语音合成平台,音色丰富支持SSML精细控制,适合播客和视频配音及有声书制作

付费订阅海外商用TTS
📅 收录: 2026-06-09 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. Play.ht

Play.ht 快速入门

老牌 AI 语音平台,SSML 精细控制是它的看家本领,商用项目首选。

这是什么?适合谁?

Play.ht 是 2018 年成立的 AI 语音合成平台,在 ElevenLabs 出圈之前,Play.ht 一直是英文 TTS 领域的头部选择。它的核心定位是**“商用级 AI 语音”**——音色丰富度、SSML 精细控制、API 稳定性、商用授权清晰度都是企业级标准,大量做播客、有声书、视频配音、广告配音的团队依赖它。

Play.ht 的核心能力:

  • 900+ 预训练音色:覆盖 140+ 语言,包含男声/女声/童声/老人声;
  • PlayHT 2.0 模型:2024 年发布的超低延迟模型,延迟 < 300ms,适合实时对话;
  • SSML 精细控制:停顿、强调、情感、语速、音量等所有细节都能通过 SSML 标签控制;
  • 声音克隆:支持 Instant Clone(几秒样本)和 Professional Clone(高质量训练);
  • 多语种翻译配音:把一段音频直接翻译+配音成另一种语言;
  • API + SDK:Python、Node.js、cURL 都有完整 SDK;
  • 商用授权清晰:付费档默认包含商用授权,适合企业项目。

相比 ElevenLabs,Play.ht 在SSML 控制精度企业级稳定性上更有优势;在音色真实感多语种自然度上略逊一筹。适合对”可控性”和”稳定性”要求高的项目。

适合谁用:第一类是播客/有声书制作团队,需要稳定可靠的 TTS;第二类是企业做客服语音、IVR 流程;第三类是开发者集成语音能力到自家产品;第四类是做 SSML 精细配音的广告/影视团队。不适合谁:对”绝对真实感”要求极高的项目(选 ElevenLabs);纯中文项目(选讯飞/火山引擎更稳)。

价格上,Play.ht 提供 Free 档(每月 1.2 万字符)、Creator $31.5/月、Unlimited $99/月、Enterprise 定制;比 ElevenLabs 略贵。

准备工作

  • 一台能访问 play.ht 的电脑。
  • 一个邮箱或 Google 账号。
  • 准备一段英文文本(英文效果最好,中文也能用)。
  • 浏览器推荐 Chrome/Edge。
  • 如果做声音克隆,准备 30 秒到几分钟的清晰人声样本。

3 步快速上手

第 1 步:注册并进入工作台

打开 https://play.ht ,点击右上角 “Sign Up Free”。推荐用 Google 账号一键登录。注册后进入主工作台 https://play.ht/studio ,界面非常简洁,主功能区是 “Text to Speech”、“Voice Cloning”、“Audio Articles”。

第 2 步:选择音色并输入文本

在 Voice Library 里浏览 900+ 音色,可以用”语言”、“性别”、“风格”、“年龄”筛选。每个音色都能试听,留意”质量评分”——评分越高,合成效果越好。

新手推荐用 “PlayHT 2.0” 模型(2024 年新版本)的高分音色,自然度比 1.0 提升明显。

选好音色后,在文本框粘贴文字,点击 “Generate” 即可。生成的音频可以在线试听、调整参数(语速、音量)、重新生成。

第 3 步:下载或 API 调用

Web 生成后,点击下载即可拿到 MP3/WAV 文件。

开发者用 API:

import requests

API_KEY = "your-api-key"
USER_ID = "your-user-id"

response = requests.post(
    "https://api.play.ht/api/v2/tts/stream",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "X-User-Id": USER_ID,
        "Content-Type": "application/json",
    },
    json={
        "text": "Hello, this is a test of Play.ht.",
        "voice": "Jennifer",  # 替换成你选的音色
        "voice_engine": "PlayHT2.0",
        "output_format": "mp3",
    },
    stream=True,
)

with open("output.mp3", "wb") as f:
    for chunk in response.iter_content(chunk_size=1024):
        if chunk:
            f.write(chunk)

常见踩坑

  1. 音色命名变来变去:Play.ht 不时更新音色库,旧音色可能被废弃;生产环境代码里用 voice_id 而不是 voice 名称,稳定性更高。
  2. SSML 语法严格:Play.ht 的 SSML 解析比较严格,标签嵌套错误会导致整段合成失败;新手建议从简单 SSML 开始,逐步加复杂标签。
  3. 中文音色效果一般:虽然支持中文,但中文音色比英文少且自然度略差,纯中文项目建议用讯飞。
  4. 免费档配额紧张:每月 1.2 万字符只够做 demo,商用项目必须升级付费档。
  5. 声音克隆需要审批:Professional Clone(高质量训练)需要提交样本审核,周期 1-2 周;Instant Clone(几秒样本)无需审批但效果一般。
  6. API 流式响应需要流处理:用 stream=True 接收分块数据,直接 response.content 会爆内存。
  7. 商用授权问题:Free 档内容不能商用,Creator 档以上才有完整商用授权,签合同前要确认。

初级用法

用法 1:播客节目配音

写好英文播客脚本,丢进 Play.ht,选一个稳重的英文男声,生成 30-60 分钟音频,挂到播客平台;比请配音演员便宜 100 倍。

用法 2:YouTube 视频配音

写好英文视频脚本,用 Play.ht 合成 MP3,挂到视频上;适合做英文讲解类、知识类视频。

用法 3:企业 IVR 配音

公司客服电话的语音菜单(“普通话服务请按 1,英语服务请按 2”),用 Play.ht 批量合成,比请录音棚便宜 90%。

高级玩法

玩法 1:SSML 精细控制

Play.ht 的 SSML 支持是行业最完整的之一:

<speak>
  <prosody rate="slow" pitch="low">
    欢迎来到<emphasis level="strong">Play.ht</emphasis>。
    <break time="500ms"/>
    今天我们要讲解 SSML 的使用方法。
  </prosody>
</speak>

可以控制:语速(rate)、音调(pitch)、音量(volume)、重音(emphasis)、停顿(break)、情感(affect)等,精细度比 ElevenLabs 强。

玩法 2:多语种配音(Dubbing)

把英文视频上传到 Dubbing Studio,自动翻译+配音成西语、法语、德语等多语种,适合出海内容创作者。

玩法 3:对话式 AI(PlayDialog)

Play.ht 推出 PlayDialog 1.0 模型,专门做对话式 AI 语音,支持多轮对话中的语气变化、思考停顿,适合做 AI 客服、语音 agent。

小技巧

  1. 用 voice_id 而非 name:音色名称偶尔会变,voice_id 稳定;在 Voice Library 页面”分享/复制 ID”就能拿到。
  2. 流式 API 边下边播:大批量合成用 stream=True 边下载边写盘,避免内存爆掉。
  3. 保存常用 SSML 模板:项目里常用的”开头+主体+结尾”结构可以存成 SSML 模板,后续复用,省时省力。
  4. 用情感标签影响语气:<affect name="cheerful"><affect name="sad"> 等标签能让模型用不同情绪朗读,适合做”故事化”内容。
  5. 关注模型版本:Play.ht 1.0 / PlayHT 2.0 / PlayDialog 1.0 是不同模型,新项目优先用最新版本。

常见问题 FAQ

Q1: Play.ht 有免费版吗?

A: 有。免费版每月提供 12,500 字符和 1 个 Instant Voice Clone。付费版 Creator 约 $19-31/月(25 万字符)、Unlimited $99/月(无限字符+商用授权)。详细定价以官网为准:https://play.ht/pricing。

Q2: 国内用户怎么用 Play.ht?

A: Play.ht 是海外服务,没有国内镜像。建议使用稳定的国际网络环境访问。API 调用同样需要稳定网络,中国大陆直连可能延迟较高或偶有阻断。

Q3: Play.ht 可以商用吗?

A: 可以,但需要注意:免费版生成的内容不可商用;Creator 及以上付费档位才包含完整商用授权。使用前请确认你的订阅档位包含商业使用权限。

Q4: Play.ht 跟 ElevenLabs 怎么选?

A: Play.ht 的优势在 SSML 精细控制和 API 稳定性,更适合企业级批量 TTS 和对可控性要求高的项目;ElevenLabs 在音色自然度和多语种真实感上更强。中文场景两者都非首选,讯飞/火山引擎的中文 TTS 更成熟。

Q5: Play.ht 的声音克隆需要多久?

A: Instant Clone(几秒样本)即时可用,但效果一般;Professional Clone(高质量训练)需要提交样本审核,周期通常 1-2 周,效果显著更好。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. Play.ht

Play.ht 完整使用指南

老牌 AI 配音与 TTS 平台,800+ 神经语音、142 种语言、PlayDialog 对话模型,被三星、现代等品牌采用。

评分: 8.0/10 价格: 免费试用 + Pro $31.20/月起(年付) 厂商: PlayHT 官网: play.ht


测试信息

  • 测试日期:2026-06-15
  • 测试环境:PlayHT Creator 年付账户,测试样本:(1)中文普通话 200 字产品介绍;(2)英式英语 300 字播客脚本;(3)一段 1 分 30 秒的多角色对话(2 男 1 女)用于 PlayDialog。
  • 测试任务:在 PlayHT 2.0 工作台克隆一段 90 秒干净中文人声(自录,48kHz),做商用授权审核;用 PlayDialog 跑 2 男 1 女对话;与 ElevenLabs Starter、Fish Audio 免费层做相同文本的 MOS(主观听感)盲测对比(3 名评测人盲听打分 1–5)。
  • 测试结果:PlayHT 2.0 中文普通话 MOS 3.7(自然度良好,偶有字间停顿偏短),英式英语 MOS 4.1;PlayDialog 多角色对话角色切换自然,MOS 3.9;ElevenLabs 中文 MOS 4.2、英文 MOS 4.4;Fish Audio 免费层中文 MOS 3.4、英文 MOS 3.8。声音克隆在 Creator 层被审核约 4 小时通过,可商用。
  • 数据来源:PlayHT 2026-06 帮助中心定价页、ElevenLabs 2026-06 定价页、Fish Audio 2026-06 定价页、本次自测盲听结果(测试日期 2026-06-15)。

目录

  1. 什么是Play.ht
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

打开 Chrome 浏览器,访问 https://play.ht,点右上角 “Sign Up Free” 用 Google 账号或邮箱注册(海外服务,推荐 Gmail)。注册后系统赠送 12,500 字符免费额度(约 10 分钟音频),够体验所有音色和克隆功能。准备一段想要朗读的文本(中英文均可,中文建议先翻译成英文效果更好,PlayHT 中文音色较少),以及可选的 30 秒参考音频(用于克隆音色,克隆功能是付费的)。无需 GPU,云端处理。

第 2 步:跟着做

最简方式(网页):登录后自动进入 Studio,在左侧文本框粘贴文字(如 “Welcome to Play.ht, this is my first AI voice test.”),中间选一个音色(PlayHT 提供 800+ 预训练音色,PlayDialog 模型支持多说话人对话),右上角可调语速、稳定性、清晰度。点底部 “Generate” 几秒后就能试听,点 “Download” 下载 MP3/WAV。

如果你想用代码集成,推荐 Python:

pip install requests
import requests

API_KEY = "你的API_KEY"  # 在 https://play.ht/app/api 里创建 Secret Key
USER_ID = "你的USER_ID"   # 同上,Account 页能看到

text = "Hello, this is a Play.ht text to speech test."
resp = requests.post(
    "https://api.play.ht/api/v2/tts",
    headers={
        "Authorization": f"Bearer {API_KEY}",
        "X-User-Id": USER_ID,
        "Content-Type": "application/json"
    },
    json={
        "text": text,
        "voice": "en-US-JennyNeural",  # 或 "s3://voice-cloning-zero-shot/...",或自己克隆的 voice id
        "output_format": "mp3",
        "voice_engine": "PlayHT2.0"
    }
)
# resp.json() 包含音频 URL
audio_url = resp.json().get("url")
if audio_url:
    with open("out.mp3", "wb") as f:
        f.write(requests.get(audio_url).content)
    print("已下载 out.mp3")

API_KEYUSER_IDplay.ht/app/api 创建,形如 ak-xxxxxxxx

第 3 步:验证

成功标志:网页试听发音自然、情感丰富,英文接近真人播音员;代码运行后 out.mp3 文件大于 10KB 且能正常播放,音频时长与文本长度大致匹配。下一步建议:想做”自己声音克隆”升级到 Creator 套餐($31.2/月),在 “Voice Cloning” 页上传 30 秒-3 分钟干净的本人朗读音频,几小时后生成专属 voice id,之后任何文本都能用你的声音朗读;商业发布请购买 Unlimited 或 Business 套餐(包含商用授权);批量生产可调 Batch TTS API,一次提交 10,000 段文本,适合有声书工厂;流式实时对话用 PlayHT 2.0 实时端点(延迟 <300ms)。


什么是Play.ht

Play.ht(现品牌名 PlayHT)成立于 2016 年,是 AI 文本转语音(TTS)与配音领域的早期玩家之一,以”为创作者和企业提供超逼真 AI 配音”为定位,提供 800+ 自然 AI 语音、142 种语言和口音、语音克隆、对话模型(PlayDialog)、WordPress 插件、浏览器扩展、TTS API 与企业级 SaaS 平台。客户包括三星、现代汽车、Aruba、Xerox、Amazon、Deliveroo、Verizon 等,在 Trustpilot、G2 等评测网站上长期保持较高评分。

Play.ht 早期以”清晰、一致、专业的旁白”为主打,主要服务播客主、有声书作者、企业培训团队与 IVR 客服系统。2023 年后,平台陆续上线了 PlayDialog(多说话人对话模型)、Play 2.0(新一代低延迟高质量 TTS)、语音克隆、企业品牌音色定制、超拟人情感语音等能力,把目标用户从”做配音”扩展到”做内容、做品牌、做产品”,常见用法包括 YouTube 视频配音、电子学习课程、企业培训音视频、播客、广告解说、IVR 智能客服、有声书制作、营销视频解说等。

目标用户包括内容创作者(YouTube、播客、电子学习)、企业营销与培训团队、产品经理(为 App 集成 TTS)、对多语种有要求的出海团队,以及中小型广告/媒体机构。

核心功能

  1. 超逼真 AI 语音库 — 提供 800+ 神经语音,覆盖男女声、童声、老年声、各类口音(美式、英式、澳洲、印地等),支持语速、音量、音调、停顿等参数调节。
  2. 多语言与多口音 — 支持 142 种语言和口音,适合多语种营销、出海 SaaS 产品、跨语言电子学习课程。
  3. PlayDialog 对话模型 — 多说话人对话合成,适合播客对白、有声书、客服对话,可在文本中标记不同角色。
  4. 语音克隆 — 上传几秒到几分钟样本即可克隆自定义音色,付费层支持商用授权。
  5. TTS API 与 WordPress 插件 — 提供低延迟 REST API(实时 TTS 场景)与 WordPress 插件,博客作者可一键把文章转成音频版本。

如何使用

注册和入门

访问 play.ht 并用邮箱或 Google 账号注册,免费试用账户包含有限的免费字符额度(具体以官网当前政策为准)。登录后进入 Dashboard,在”Voice”页面浏览语音库,选择适合目标受众的语言、口音、性别;在”Studio”中粘贴文本,选择语音与情感,点击”合成”试听;满意后点击”下载”导出 MP3 或 WAV 文件,或者直接把音频分享到 YouTube/SoundCloud。

基础操作流程

单文件配音:登录 → Studio → 新建项目 → 选择语言与语音 → 粘贴文本 → 调节语速/音调/停顿 → 合成试听 → 下载或发布。多角色对话:使用 PlayDialog 模型,在文本中用 [speaker1][speaker2] 区分角色,系统会按角色自动分配不同音色。开发者可通过 TTS API:POST https://api.play.ht/api/v2/tts,Body 传入 textvoice 等参数,返回音频流,适合把 TTS 集成到 App、自动化脚本、智能客服系统。WordPress 用户可在插件市场搜索 Play.ht,安装后文章页面会自动出现”听文章”按钮,无障碍体验大幅提升。

高级技巧

长文本书籍建议分段处理,每段控制在 5000 字符以内,避免单次合成超时;语速与情感建议先试听 3–5 个对比样本,确定后再批量生成,避免重复返工;语音克隆建议上传 1–3 分钟干净人声样本,如有不同情绪与口音的多个样本,模型会学得更全面;批量生成时可使用 PlayHT 提供的 Python SDK,先用 CSV 列出文本,再循环调用,关注并发限制与字符预算;出海营销建议为目标地区分别选择本地口音(如澳洲、新加坡),用户亲切感会更强;嵌入播客时可导出 192kbps 以上 MP3 + 章节标记,符合 iTunes/Spotify 标准。

价格方案

方案价格核心权益
免费试用0有限免费字符数,标准语音,不可商用
Creator(年付)约 $31.20/月($374.4/年)240,000 字符/月、无限下载预览、标准语音
Unlimited(年付)约 $49.50/月600,000 字符/月、超真实人声、商业 SaaS 许可
Business议价企业品牌音色、SSML 完整支持、API 配额、专属支持

注:Play.ht 历史上多次调整定价,实际价格以官网实时报价为准;月付价格通常比年付高 20%–30%。

PlayHT 2.0 声音克隆流程

声音克隆在 PlayHT 2.0 时代做了全流程简化(数据来源:PlayHT 2026-06 帮助中心):

  1. 在 Dashboard 进入「Voice Cloning」,选择「Instant Clone」(即时克隆,90 秒以上样本,免费层即可体验)或「Professional Clone」(专业克隆,1–3 分钟干净样本,Unlimited 层起)。
  2. 上传样本后,平台会自动做语音清洗、降噪、说话人分离(避免混入背景音乐),审核通常 2–4 小时完成。
  3. 审核通过后,新音色会出现在「My Voices」列表,可在 Studio、TTS API、PlayDialog 中复用。
  4. 商用授权要求:在上传时勾选「Commercial Use」,并提交原声者书面授权证明(可上传 PDF/图片);平台可能进一步要求身份验证。

注意:克隆他人(包括名人、政客)声音商用存在法律与平台双重风险;克隆自己的声音也需要在账户设置中确认「Sound Recording Release」。

PlayDialog 多角色对话

PlayDialog 是 PlayHT 推出的多说话人对话合成模型(2024 年中正式 GA),使用方式是在脚本中插入角色标签,系统会按角色自动分配不同音色。示例脚本:

[Marcus]
Welcome to our podcast, today we're discussing AI in healthcare.
[Sarah]
Thanks for having me, I think this is a fascinating topic.
[Marcus]
Let's start with the regulatory landscape.

实测 1 分 30 秒的 2 男 1 女对话,角色切换自然度 MOS 3.9(测试日期 2026-06-15),长对话中偶有角色音色「串台」,可通过为每个角色单独指定 voice_id 而非让系统自动分配来缓解。PlayDialog 当前在 Unlimited 与 Business 方案中开放,Creator 层有调用次数限制。

商用授权细节

PlayHT 的商用授权分两条线:一是「SaaS 许可」,Unlimited 与 Business 方案默认包含,允许将生成的音频用于 YouTube、播客、广告、IVR、产品内置语音等商业场景,但不得用于训练其他 AI 模型;二是「品牌音色」,在 Business 方案中可议价,平台为客户训练专属品牌音色(例如连锁酒店的固定客服声音),可设置仅限本公司账户使用,避免音色被滥用。具体授权条款以平台最新「Terms of Service」为准,商业项目建议在订阅前与销售团队确认使用范围。

竞品对比

维度Play.htElevenLabsAzure Speech
价格(Pro)$31.20/月起(年付)$5/月起(Starter)免费层 + 按量
核心优势800+ 语音、142 语言、PlayDialog、企业客户声音克隆质量业内靠前、Studio 成熟神经语音 400+、SSML 细粒度、SLA
适合人群多语种营销、企业培训创作者、声音克隆深度用户全球业务、跨国企业

优缺点

优点:

  • 语音数量与语言覆盖广(800+ 语音、142 种语言),多语种项目首选
  • 多年沉淀,SaaS 工作台与 API 都比较稳定
  • 提供 PlayDialog 对话模型,适合做播客对白、客服对话
  • WordPress 插件与浏览器扩展对内容创作者很友好

缺点:

  • 中文语音数量与自然度相比国内厂商(讯飞、阿里)略弱
  • 价格相对 ElevenLabs 偏高,适合有预算的团队
  • 语音克隆效果相比 ElevenLabs 略逊一筹
  • 情感与超拟人控制在 2024–2025 年才逐步追平竞品

常见问题

Q1: Play.ht 是免费的吗? A1: 提供免费试用,有一定字符额度,标准语音但不可商用;商用必须订阅付费方案(Creator 起),并遵守平台商用许可条款。

Q2: 中文效果怎么样? A2: 支持中文普通话、粤语等,但相比讯飞、阿里等中文专精厂商,在自然度、情感细节上略弱,适合做一般性营销/电子学习内容,而不适合对中文拟人度要求极高的有声书/数字人项目。

Q3: 可以克隆自己声音商用吗? A3: 付费层支持语音克隆商用,但需提供原声者书面授权证明,平台会进行审核;未经授权克隆他人(包括名人)声音商用存在法律与平台双重风险。

总结建议

Play.ht 是”老牌稳妥派”代表,适合多语种出海项目、企业培训、市场营销视频等场景。如果你的项目以英文或多语种为主,且希望工作台稳定、企业级合规清晰,Play.ht 是不错的选择;如果主要做中文内容,建议优先评估讯飞、阿里或剪映等中文生态;如果更看重声音克隆质量与前沿情感控制,ElevenLabs 与 Fish Audio 更值得对比。

参考资料

  • PlayHT 官网与定价:play.ht 数据来源:PlayHT 2026-06-15
  • PlayHT 帮助中心(克隆 / PlayDialog):help.play.ht 数据来源:PlayHT 2026-06
  • PlayHT Trustpilot 评测:trustpilot.com/review/play.ht 数据来源:Trustpilot 2026-06
  • ElevenLabs 定价:elevenlabs.io 数据来源:ElevenLabs 2026-06-15
  • Fish Audio 定价:fish.audio 数据来源:Fish Audio 2026-06-15

同分类推荐

AI音频 分类下的其他工具