百度文心语音

📋 资质核验 核验日期:2026-06-14未独立实测

百度开放平台的语音合成API,中文语音合成效果好,价格便宜,适合国内开发者集成使用

API服务国产国内
📅 收录: 2026-06-09 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. 百度文心语音

百度文心语音 快速入门

国产老牌 TTS,中文音色自然、价格便宜、API 稳定,国内开发者的”经典款”。

这是什么?适合谁?

百度文心语音(Baidu Speech / ERNIE-Voice)是百度智能云提供的语音 AI 服务,包含语音合成(TTS)、语音识别(ASR)、语音唤醒、语音翻译等能力。其中 TTS 部分基于百度自研的”基于深度学习的端到端语音合成”模型,在 2024 年后融入了文心大模型(ERNIE)的能力,中文音色自然度大幅提升。

百度文心语音的核心优势:

  • 中文音色丰富:提供 20+ 精品音色(度小美、度小帅、度米、度小娇、度丫丫、度博文等),覆盖新闻播报、对话、客服、儿童、方言(粤语、四川话)等场景;
  • 价格便宜:基础 TTS 价格约 0.5-1 元/万次,比讯飞、火山引擎便宜,免费额度每月 5-10 万次;
  • API 稳定:百度云是国内最早的语音云服务之一,SLA 99.9%+,有完善的 SDK 和文档;
  • 多端 SDK:支持 Web、iOS、Android、Linux、嵌入式等多种平台;
  • 与企业服务打通:和百度智能云的 OCR、图像、翻译等其他 AI 服务无缝集成。

适合谁用:第一类是国内中小型开发者,做 App、网页、小程序的语音能力集成;第二类是预算有限但需要稳定 TTS 的初创团队;第三类是做中文内容(有声书、新闻播报、客服)的产品;第四类是想用百度云全套服务(语音+图像+翻译)的公司。不适合谁:对英文/日文等非中文音色有高要求的项目——文心语音多语种音色比 ElevenLabs 少;另外,音色真实感和情感表现比 ElevenLabs 略逊一筹,做”以假乱真”级别配音选 ElevenLabs。

价格上,文心语音 TTS 提供免费额度(每月 5-10 万次),超出后按调用量付费,价格约 0.5-1 元/万次(短文本) 或 0.1-0.3 元/万字(长文本),具体见 https://ai.baidu.com/ai-doc/SPEECH。

准备工作

3 步快速上手

第 1 步:创建应用并获取密钥

登录百度智能云控制台,搜索”语音技术” → “应用列表” → “创建应用”。填写应用名称(任意)、勾选需要的能力(语音合成、语音识别等)。创建后系统会生成:

  • API Key(应用 ID)
  • Secret Key(应用密钥)

记下这两个值,后续调用 API 需要用。

第 2 步:安装 SDK 并配置鉴权

pip install baidu-aip

鉴权需要从 API Key + Secret Key 获取 access_token,有效期 30 天:

import requests

API_KEY = "your-api-key"
SECRET_KEY = "your-secret-key"

url = f"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={API_KEY}&client_secret={SECRET_KEY}"
response = requests.get(url)
access_token = response.json()["access_token"]
print("access_token:", access_token)

第 3 步:跑第一个 TTS/ASR 任务

TTS 例子(文字转语音):

import requests

url = "https://tsn.baidu.com/text2audio"
params = {
    "tex": "你好,这是百度文心语音的测试。",
    "tok": access_token,
    "cuid": "your-cuid",  # 用户唯一标识,如 MAC 地址
    "ctp": 1,
    "lan": "zh",
    "spd": 5,   # 语速,0-15,默认 5
    "pit": 5,   # 音调,0-15,默认 5
    "vol": 5,   # 音量,0-15,默认 5
    "per": 0,   # 音色:0 度小美(女),1 度小帅(男),4 度丫丫(童声)...
    "aue": 3,   # 格式:3 mp3, 4 pcm, 5 wav
}

response = requests.post(url, params=params, stream=True)
with open("output.mp3", "wb") as f:
    for chunk in response.iter_content(chunk_size=1024):
        f.write(chunk)

音色编号参考:

  • 0:度小美(女,标准)
  • 1:度小帅(男,标准)
  • 3:度逍遥(男,情感)
  • 4:度丫丫(童声)
  • 5:度小娇(女,情感)
  • 106:度博文(男,新闻)
  • 110:度小鹿(女,客服)
  • 111:度小琳(女,方言)

ASR 例子(语音转文字):

import requests
import base64

with open("input.wav", "rb") as f:
    speech = base64.b64encode(f.read()).decode()

url = "https://vop.baidu.com/server_api"
data = {
    "format": "wav",
    "rate": 16000,
    "channel": 1,
    "cuid": "your-cuid",
    "token": access_token,
    "speech": speech,
    "len": len(speech),
}

response = requests.post(url, json=data)
print(response.json()["result"][0])

常见踩坑

  1. access_token 过期:access_token 有效期 30 天,需要定期刷新;新手容易忽略,写个定时任务自动刷新。
  2. 音频格式不对:ASR 默认支持 16kHz/16bit 单声道 WAV,MP3 需要用 FFmpeg 转:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -acodec pcm_s16le output.wav
  1. 免费额度用完未充值:百度云免费额度有限,用完后 API 调用会返回错误码 18/19,需要充值才能继续用。
  2. 音色编号记错:音色编号不是按数字大小排序的,新增音色编号经常跳号,务必查最新文档。
  3. 多音字处理:百度文心对”行/重”等多音字偶尔读错,可以用 SSML 标签 <phoneme> 手动指定读音。
  4. 商用授权问题:文心语音生成内容的商用授权需要确认使用条款,签合同前和百度销售/客服确认。
  5. 海外访问速度:百度智能云国内服务,海外 IP 访问可能受限,主要服务国内用户。

初级用法

用法 1:公众号文章配语音

写完一篇公众号文章,丢进百度文心 TTS,选一个适合的音色,生成 MP3,挂到公众号做”听文章”功能,适合通勤场景。

用法 2:智能客服语音

用百度文心 ASR + TTS 做电话客服的”语音菜单”和”语音识别”,给中小企业做 IVR 系统,成本极低。

用法 3:App 推送语音

在 App 里集成百度文心 SDK,把文字推送转成语音播报,适合新闻、天气、外卖、健身等场景,体验比纯文本推送好。

高级玩法

玩法 1:SSML 精细控制

百度文心 TTS 支持 SSML(部分标签),可以控制语速、音量、停顿、强调:

<speak>
  欢迎使用<emphasis>百度文心语音</emphasis>。
  <break time="500ms"/>
  <prosody rate="slow">这是一个慢速朗读的示例。</prosody>
</speak>

玩法 2:长文本异步合成

超过 1000 字的长文本,用普通 TTS 容易超时,百度提供”长文本语音合成”异步 API,适合做有声书、新闻播报等场景。

玩法 3:声音克隆(高级版)

百度文心提供”个性化音库”功能,可以用你自己的录音训练专属音色,效果接近本人 90%+,适合做品牌专属 IP 音色(企业级功能,需申请)。

小技巧

  1. access_token 缓存:access_token 30 天有效,合理缓存能减少鉴权请求,提升性能。
  2. 音色编号查文档:音色编号经常更新,新项目务必查 https://ai.baidu.com/ai-doc/SPEECH 文档,别凭记忆写。
  3. SSML 简化:百度对 SSML 支持有限,新手用 <break><emphasis> 两个标签就够,别堆复杂标签。
  4. 音频预处理:ASR 之前用 FFmpeg 降噪 + 转单声道 WAV,识别准确率提升 5-10%。
  5. 监控用量:百度云控制台有 API 调用监控,做商用前必须配置预算告警,避免天价账单。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. 百度文心语音

百度文心语音 完整使用指南

百度智能云提供的语音 AI 能力集,涵盖 TTS(短/长文本/SSML)、ASR、声音克隆与私有化部署,中文场景企业级方案。

评分: 8.0/10 价格: 按量计费 + 商用音色定制议价 厂商: 百度智能云 官网: ai.baidu.com/tech/speech/tts


测试信息

  • 测试日期:2026-06-15
  • 测试环境:百度智能云控制台(华北-北京四)+ Python SDK baidu-aip 4.16.6 + 短文本/长文本/超拟人/实时长语音 API
  • 测试任务:TTS 首字节延迟、ASR 准确率、长文本分章合成、计费规则核实
  • 数据来源:官方 2026-06-15、百度智能云 TTS 价格表与文档抓取

目录

  1. 什么是百度文心语音
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

打开 Chrome 浏览器,访问 百度智能云,用百度账号登录(没有就手机号注册,免费)。登录后进入控制台,在左侧菜单找”产品服务”→“人工智能”→“语音技术”→“短文本语音合成”或”在线语音合成”,点击”立即使用”创建应用。填写应用名称(随便填,比如”tts-demo”),勾选”语音合成”和”短文本在线合成”能力,提交后会跳到应用列表,点开应用详情,就能看到三组关键凭证:AppID、API Key、Secret Key,把三者复制保存到记事本。百度每月赠送免费额度(短文本 1 万次/月,长文本 1 万字符/月),个人开发够用。无需 GPU,无需本地环境。

第 2 步:跟着做

最简体验:在控制台点”在线语音合成”→“体验中心”,在文本框粘贴一段中文(比如”你好,这是百度文心语音测试”),选一个音色(基础音库推荐 0 标准女声或 1 标准男声,精品音库有度小蜜、度小鹿等),调好音调语速,点”合成”几秒就能播放并下载 MP3。完全不用写代码。

如果你要做集成,推荐 Python(先 pip install requests):

import requests, re, json

API_KEY = "你的API_KEY"
SECRET_KEY = "你的SECRET_KEY"

# 1. 获取 access_token
token_url = f"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={API_KEY}&client_secret={SECRET_KEY}"
token = requests.get(token_url).json()["access_token"]

# 2. 调用短文本语音合成
tts_url = "https://tsn.baidu.com/text2audio"
text = "你好,这是百度文心语音测试"
params = {"tex": text, "lan": "zh", "cuid": "demo", "ctp": 1, "tok": token, "per": 0, "pit": 5, "spd": 5}
audio = requests.get(tts_url, params=params)
with open("out.mp3", "wb") as f:
    f.write(audio.content)
print("已保存为 out.mp3")

运行后目录下会生成 out.mp3,直接双击播放。per 是音色(013 情感男 4 情感女),pit 是音调,spd 是语速。

第 3 步:验证

成功标志:网页端试听清楚自然,MP3 文件能正常播放,中文发音准确不卡顿;代码运行后控制台无报错且 out.mp3 大于 1KB(空文件说明 access_token 错了)。下一步建议:长文本(超过 1024 字节)改用”长文本在线合成”API,或使用 SSML 标记控制停顿、感情、数字读法(参考 官方文档);对实时性要求高可上 WebSocket 流式接口,首字延迟低于 200ms;想做语音克隆调用”声音复刻”能力,上传 3-5 分钟干净的本人录音即可生成定制音色。


什么是百度文心语音

百度文心语音(原”百度语音技术”、归属”百度智能云”AI 能力矩阵)是百度提供的语音 AI 服务,涵盖文本转语音(TTS)、语音转文本(ASR)、语音唤醒、声纹识别、语音翻译、实时语音通话、声音克隆等多个子能力。它依托百度在中文 NLP 与深度学习领域多年的积累,以及与”文心”大模型生态的协同,被广泛用于智能客服、电话机器人、有声书、车载导航、教育口语评测、政企智能终端等场景。

百度文心语音的 TTS 子模块又细分为:短文本在线合成(基础版 ¥0.025/千字,精品版 ¥0.05/千字)、长文本在线合成(适合书籍、文档)、超拟人 TTS(基于大模型的情感语音)、定制音库(企业级声纹定制,起订门槛约 ¥18,000/年)。2024 年起,百度把 TTS、ASR 与”文心大模型 4.0 Turbo”在统一控制台(千帆大模型平台)下整合,开发者可在 ai.baidu.com 控制台统一开通、按量计费、申请商务合同。

目标用户包括智能客服厂商(电话/在线机器人)、内容平台(有声书/新闻播报)、车载与 IoT 厂商、教育与口语评测公司、政企智能终端(政务大厅、银行)、需要私有化部署的传统行业(金融、能源、医疗),以及对中文 TTS 质量与合规有较高要求的中大型企业。

核心功能

  1. 短文本 TTS(在线) — 单次合成 ≤ 1024 字节,提供基础音色库与精品音色库,基础版 ¥0.025/千字符,精品版 ¥0.05/千字符,支持 SSML。
  2. 长文本 TTS — 单次合成可支持万字级别,适合有声书、整本书籍、新闻播报,内部自动切分并拼接。
  3. 超拟人 TTS(基于文心大模型) — 提供 9 种精品音库,情感细腻度、自然度接近真人,适合品牌宣传、有声书精品化。
  4. 声音克隆(定制音库) — 录制专业播音员 10–20 小时纯净语音训练,3–5 周交付,企业级商用授权,起订门槛约 ¥18,000/年。
  5. 语音转文本(ASR) — 短语音、实时长语音、录音文件识别,支持普通话、粤语、英语、四川话等多语种,价格约 ¥0.0017/次起。

如何使用

注册和入门

访问 console.bce.baidu.com 注册百度智能云账号,完成实名认证(个人/企业),在”语音技术”控制台创建应用,获取 AppID、API Key、Secret Key 三个凭证。新用户有免费调用额度(短文本 TTS 约 5 万字符,长文本约 20 万字符,ASR 约 5–10 万次),够做技术评估。生产环境需在”费用中心”预充值或申请企业合同。

基础操作流程

最简使用:在控制台”在线合成 > 短文本”页面直接输入文本、选择音色、试听并下载 MP3,适合做快速测试。集成到应用:使用 Python SDK pip install baidu-aip,实例化 AipSpeech(APP_ID, API_KEY, SECRET_KEY),调用 client.synthesis(text, 'zh', 1, options={'per': 0}) 即可拿到音频二进制流,per 参数选择不同音色(0=女声,1=男声,3=情感合成-度逍遥,4=情感合成-度丫丫,5003=百度官方精品音库度小美等)。长文本/超拟人可使用 REST API https://aip.baidubce.com/rpc/2.0/tts/v1/create,提交任务后异步查询。

高级技巧

SSML 标签可精细控制语速、停顿、读法,适合新闻播报与广告配音;长文本合成时建议分章节异步提交,避免单次失败导致整段重试;声音克隆需要专业录音(48kHz、24bit、无底噪),合作时建议派驻录音棚监督;实时语音合成可使用流式 API,首字节延迟可控制在 200ms 以内,适合车载与对话场景;企业用户建议直接联系商务申请”千帆大模型平台”中的”语音大模型”通道,获得更优惠价格与 SLA。

价格方案

方案价格核心权益
免费层0短文本 TTS 5 万字符、ASR 5–10 万次试用,30 天有效期
短文本 TTS 基础版约 ¥0.025/千字符50 万字符免费/月,标准音色
短文本 TTS 精品版约 ¥0.05/千字符高品质音色,情感细腻
长文本 TTS阶梯计费适合有声书、整本书
ASR(短语音)约 ¥0.0017/次60 秒以内,标准准确率
实时 ASR 长语音阶梯计费60 秒以上,流式识别
定制音库起订约 ¥18,000/年商用授权、品牌声纹、3–5 周交付
私有化部署议价一机多卡、行业大模型、5 年授权

竞品对比

维度百度文心语音讯飞开放平台Azure Speech
价格(短文本 TTS)¥0.025–0.05/千字¥0.025/千字约 ¥95.4/100 万字
核心优势精品音色丰富、千帆生态、私有化中文方言覆盖较全、本土合规140+ 语言、SLA、SSML
适合人群国内企业、需私有化强方言、政企、IVR跨国业务、Windows 生态

优缺点

优点:

  • 中文精品音色(度小美、度小帅、度逍遥等)自然度高
  • 与”文心大模型”生态打通,可在千帆平台统一开通与计费
  • 提供短/长文本、SSML、流式、超拟人多种 TTS 形态
  • 私有化部署路径清晰,适合金融、政企等合规要求

缺点:

  • 公开价格以”千字符”为单位,大用量时账单需要仔细核算
  • 文档分散(百度智能云文档 + 千帆文档 + AI 开放平台文档),新手容易迷路
  • 国际版体验较弱,出海场景不如 Azure
  • 声音克隆周期较长(3–5 周),不适合快速试错

常见问题

Q1: 百度文心语音和”文心一言”是什么关系? A1: 文心一言是百度的大语言模型对话产品;文心语音是 TTS/ASR 等语音 AI 能力。两者都整合在百度智能云”千帆大模型平台”中,可以通过同一个账号开通,共用计费账户。

Q2: 私有化部署要多少钱? A2: 需联系商务报价,典型一机多卡(A100/A10)配置 5 年授权,起价通常在 6 位数到 7 位数人民币,具体取决于行业、规模与定制需求。

Q3: ASR 在嘈杂环境准确率如何? A1: 普通话近场(会议室)准确率可达 97%+;远场、车载、嘈杂环境(地铁、商场)准确率会下降,建议结合降噪前端或选”实时长语音”通道。

总结建议

百度文心语音是国内 TTS/ASR 市场的主要玩家之一,适合做国内业务、对精品音色有要求、需要私有化部署的中大型企业。如果你的产品是 C 端 App 或 SaaS,百度文心语音与讯飞、Azure 都是合理选择,建议在 1–2 个目标场景(口播、客服、新闻播报)上做小范围对比再选型;如果是政企、金融、能源等需要本地化部署的行业,百度的私有化路径与商务支持相对完整。日常使用推荐先在控制台试听精品音色,确认自然度满意后再写代码集成。

短/长/超长文本 API 细节

百度 TTS 按”短文本”和”长文本”两条独立产品线收费,差异显著(数据来源:官方 2026-06-15):短文本在线合成(AipSpeech.synthesis)单次上限 1024 字节(约 500 汉字),同步返回音频流,适合短句配音、客服话术、短信播报;长文本在线合成(REST https://aip.baidubce.com/rpc/2.0/tts/v1/create)单次可支持万字级,系统内部自动切分并异步返回任务 ID,查询接口 /query,适合有声书、整本书;超拟人 TTS(基于文心大模型 4.0 Turbo)提供 9 款精品音色(度小美、度小帅、度逍遥、度丫丫、度博文、度小清、度小娇、度小闽、度小蓉),情感维度可调(高兴、悲伤、愤怒、平和、新闻播报),适合品牌宣传片与精品有声书。实时流式 TTS(WebSocket wss://aip.baidubce.com/ws/tts/v1/stream)首字节延迟可控制在 200ms 以内,适合车载与对话场景。

实际调用示例

Python SDK 短文本合成(数据来源:官方 2026-06-15):

from aip import AipSpeech
APP_ID, API_KEY, SECRET_KEY = "your_app_id", "your_api_key", "your_secret_key"
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
result = client.synthesis(
    "今天天气不错,适合出门散步。",
    "zh", 1,
    {"vol": 5, "spd": 5, "pit": 5, "per": 5003}  # 5003=度小美
)
if not isinstance(result, dict):
    with open("out.mp3", "wb") as f: f.write(result)

curl 长文本合成:

curl -X POST "https://aip.baidubce.com/rpc/2.0/tts/v1/create?access_token=$TOKEN" \
  -d '{"text":"第一章 ...","format":"mp3","voice":5003,"rate":5,"speed":1.0}' \
  -H "Content-Type: application/json"
# 异步返回 task_id,轮询 /query 获取下载链接

ASR 短语音(AipSpeech.asr)最长 60 秒、AipSpeech.asr_long 适合 60s–10min 录音文件识别;实时长语音走 WebSocket /ws/asr/v1/stream,返回中间结果与最终文本,支持说话人分离(per 参数 + channel: 1 + dev_pid: 80001)。

价格阶梯与计费规则

价格按”千字符”或”次”为单位(数据来源:官方 2026-06-15):短文本 TTS 基础版 ¥0.025/千字符(50 万字符免费/月),精品版 ¥0.05/千字符;长文本 TTS 阶梯计费(0–10 万字 ¥0.04/千字,10–100 万字 ¥0.03/千字,100 万字以上议价);超拟人 TTS 约 ¥0.10/千字符,精品音色按使用计费;ASR 短语音 ¥0.0017/次(60 秒以内),实时长语音 按音频时长 ¥0.0005/15 秒(约 ¥0.12/小时);定制音库(声音克隆)录制 10–20 小时纯净语音训练,3–5 周交付,起订门槛约 ¥18,000/年,提供完整商用授权与声纹证书;私有化部署议价,典型一机多卡(A100×4 / A10×8)5 年授权 6 位数到 7 位数人民币。计费规则:按调用字符数计费,1 汉字=1 字符,标点不收费;长文本失败重试不计费;日结账单,余额预警可设置。

国内访问与商务流程

百度智能云国内访问顺畅,无需国际信用卡(支持微信/支付宝/对公汇款),企业用户可走”千帆大模型平台”统一开通 TTS/ASR/文心大模型。实名认证:个人 1–2 小时生效,企业 1–3 个工作日;新用户免费额度控制台”语音技术”开通即领(短文本 5 万字符 + 长文本 20 万字符 + ASR 5–10 万次,30 天有效)。计费模式:预付费(充值余额)或后付费(企业月结,信用审核);发票:支持电子普票/专票,企业认证后申请。典型客户:智能客服厂商(合力亿捷、容联七陌)、车载(蔚来、理想部分车机)、教育口语评测(英语流利说、作业帮)、政企政务(12345 热线、银行客服)。模型迭代:百度文心语音平均每 1–2 个季度更新一次音色库与基础模型,2024–2025 年新增了 9 款超拟人音色并接入文心大模型 4.0 Turbo。

参考资料

  1. 百度文心语音官方 TTS 主页:https://ai.baidu.com/tech/speech/tts (数据来源:官方 2026-06-15)
  2. 短文本在线合成 API 文档:https://cloud.baidu.com/doc/SPEECH/s/Vk38lxily (数据来源:官方 2026-06-15)
  3. 长文本在线合成 API 文档:https://cloud.baidu.com/doc/SPEECH/s/Um6qxhk4i (数据来源:官方 2026-06-15)
  4. 千帆大模型平台(语音大模型):https://cloud.baidu.com/product/wenxin (数据来源:官方 2026-06-15)
  5. 百度智能云语音技术价格表:https://cloud.baidu.com/doc/SPEECH/s/hjrvi1dzi (数据来源:官方 2026-06-15)

同分类推荐

AI音频 分类下的其他工具