讯飞开放平台

📋 资质核验 核验日期:2026-06-14未独立实测 🟡 中级

科大讯飞语音开放平台,提供语音合成和识别服务,中文处理效果业界最佳,开发者首选

免费讯飞中文
📅 收录: 2026-06-09 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. 讯飞开放平台

讯飞开放平台 快速入门

中文语音 AI 的”老大哥”,二十多年技术积累,中文 TTS/ASR 的”业界标准”。

这是什么?适合谁?

科大讯飞(iFlytek)是中国语音 AI 领域的”老大哥”,从 1999 年成立至今,二十多年深耕语音识别、语音合成、机器翻译、自然语言理解。它的”讯飞开放平台”(https://www.xfyun.cn)是国内最早、最大的语音 AI 开放平台,提供语音听写(ASR)、语音合成(TTS)、语音翻译、语音唤醒、声纹识别等全套能力,累计开发者超 300 万,覆盖教育、医疗、政务、金融、车载、智能家居等众多行业。

讯飞的核心优势:

  • 中文 ASR 准确率业界领先:在普通话识别上,讯飞的字错误率(CER)长期保持行业最低,方言识别(粤语、四川话、上海话等)也非常强;
  • 中文 TTS 音色自然:提供 60+ 精品音色(讯飞小燕、讯飞小宁、讯飞小萍、讯飞小婧等),覆盖新闻、客服、儿童、方言、有声书等场景;
  • 多语种覆盖:除中文外,支持英文、日文、韩文、法文、德文、俄文等 60+ 语种;
  • 行业方案完整:智慧教育、智慧医疗、智慧城市、智慧车载等行业有完整解决方案;
  • 私有化部署:支持私有化部署(本地服务器),适合数据敏感行业;
  • 多端 SDK:Web、iOS、Android、Linux、嵌入式、车载系统等都有 SDK。

适合谁用:第一类是国内做中文语音产品的开发者(教育、医疗、客服、车载);第二类是对中文 ASR 准确率要求极高的企业(法律、医疗、政务);第三类是需要私有化部署的政府/国企/央企;第四类是”行业大客户”,讯飞有专门的销售团队支持。不适合谁:个人小白或纯娱乐项目——讯飞是企业级 API,有认证和接入流程,门槛比消费级产品高;另外,英文音色比 ElevenLabs 略差,纯英文项目选 ElevenLabs。

价格上,讯飞语音 TTS/ASR 提供免费额度(每月几千到几万次),付费按调用量,价格在 0.5-5 元/万次之间;行业大客户可联系销售谈定制价格。

准备工作

  • 一个讯飞开放平台账号(https://www.xfyun.cn/),需要实名认证(企业或个人均可)。
  • 创建一个应用(控制台 → 我的应用 → 创建新应用),获取 APPID、APIKey、APISecret 三个值。
  • 安装 SDK(可选):pip install websocket-client(讯飞 TTS 用 WebSocket 接口)。
  • 准备文本(TTS)或音频文件(ASR),建议 16kHz/16bit 单声道 WAV。
  • 准备支付方式(免费额度用完后,需要充值或购买资源包)。

3 步快速上手

第 1 步:创建应用并获取密钥

登录 https://www.xfyun.cn 控制台,点击 “我的应用” → “创建新应用”。填写应用名称(任意),勾选需要的能力(语音听写、语音合成、语音转写等)。创建后系统会生成:

  • APPID(应用 ID)
  • APIKey(API 密钥)
  • APISecret(API 签名密钥,部分接口需要)

记下这三个值,后续调用 API 需要用。

第 2 步:获取鉴权 WebSocket URL

讯飞 TTS/ASR 多数接口用 WebSocket 协议,需要先做 HMAC 鉴权生成 URL(以 Python 为例):

import base64
import hashlib
import hmac
import json
import time
from urllib.parse import urlencode

def get_auth_url(APPID, APIKey, APISecret, host, path):
    # 生成 RFC1123 格式时间戳
    now = time.strftime("%a, %d %b %Y %H:%M:%S GMT", time.gmtime())
    # 拼接待签名字符串
    signature_origin = f"host: {host}\ndate: {now}\n{path} HTTP/1.1"
    # HMAC-SHA256 签名
    signature_sha = hmac.new(
        APISecret.encode("utf-8"),
        signature_origin.encode("utf-8"),
        hashlib.sha256
    ).digest()
    signature = base64.b64encode(signature_sha).decode("utf-8")
    # 拼接 Authorization
    authorization_origin = (
        f'api_key="{APIKey}", algorithm="hmac-sha256", '
        f'headers="host date request-line", signature="{signature}"'
    )
    authorization = base64.b64encode(authorization_origin.encode("utf-8")).decode("utf-8")
    # 生成 WebSocket URL
    v = {"authorization": authorization, "date": now, "host": host}
    return f"wss://{host}{path}?{urlencode(v)}"

第 3 步:跑第一个 TTS/ASR 任务

TTS 例子(超拟人 TTS):

import websocket

APPID = "your-appid"
APIKey = "your-api-key"
APISecret = "your-api-secret"

host = "cbm01.cn-huabei-1.xf-yun.com"
path = "/v1/private/mcd9m97e6"
url = get_auth_url(APPID, APIKey, APISecret, host, path)

def on_message(ws, message):
    data = json.loads(message)
    payload = data["payload"]
    audio = payload["audio"]["audio"]
    with open("output.mp3", "ab") as f:
        f.write(base64.b64decode(audio))

def on_open(ws):
    req = {
        "header": {"app_id": APPID, "status": 2},
        "parameter": {
            "tts": {
                "vcn": "x4_lingxiaoyue",  # 音色:凌小悦
                "speed": 50, "volume": 50, "pitch": 50,
                "audio": {"encoding": "lame", "sample_rate": 16000}
            }
        },
        "payload": {
            "text": {
                "encoding": "utf8",
                "compress": "raw",
                "text": base64.b64encode("你好,这是讯飞语音合成的测试。".encode()).decode()
            }
        }
    }
    ws.send(json.dumps(req))

ws = websocket.WebSocketApp(url, on_message=on_message)
ws.on_open = on_open
ws.run_forever()

音色编号参考:

  • x4_lingxiaoyue:凌小悦(女,标准)
  • x4_lingfeiyi:凌飞逸(男,标准)
  • x4_xiaoyan:小燕(女,新闻)
  • x4_xiaoyu:小宇(男,新闻)
  • x4_xiaomei:小美(女,客服)
  • x4_xiaogang:小刚(男,儿童)
  • x4_yezi:叶子(女,方言)

ASR 例子(语音转写):

import websocket

# 类似 TTS,只是改 host/path/参数
# 详细参考讯飞文档:https://www.xfyun.cn/doc/asr/voicedictation/API.html

常见踩坑

  1. 鉴权失败(401/403):APPID、APIKey、APISecret 必须完全匹配,签名时区用 GMT;新手容易混淆这三个值。
  2. 音频格式不对:ASR 默认支持 16kHz/16bit 单声道 WAV,其他格式需要先用 FFmpeg 转:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -acodec pcm_s16le output.wav
  1. WebSocket 频繁断连:讯飞 TTS/ASR 长时间任务(超过 60 秒)会断连,需要分段处理。
  2. 音色编号变来变去:讯飞音色库经常更新,旧音色可能下架,生产代码用 voice_id 而不是 voice 名称。
  3. 免费额度用完未充值:免费额度每月清零,超出后 API 会返回错误码,需要购买资源包或开通按量付费。
  4. 私有化部署价格高:私有化部署(本地服务器)价格是企业级,小公司用不起,云端 API 性价比更高。
  5. 多语种音色少:讯飞多语种(英文/日文)音色比 ElevenLabs 少,纯英文项目选 ElevenLabs。

初级用法

用法 1:公众号文章配语音

写完一篇中文文章,丢进讯飞 TTS,选一个适合的音色,生成 MP3,挂到公众号做”听文章”功能,中文自然度比多数国产 TTS 高。

用法 2:会议录音转写

用手机录下会议录音,丢进讯飞 ASR 转成文字稿,中文识别准确率行业领先;支持”语音转写”长音频(1 小时以上)。

用法 3:智能客服语音

用讯飞 ASR + TTS 做电话客服的”语音菜单”和”语音识别”,给中小企业做 IVR 系统,成本极低。

高级玩法

玩法 1:超拟人 TTS

讯飞 2024 年推出”超拟人 TTS”模型,情感表达、停顿、气息都接近真人,适合做有声书、新闻播报、广告配音;免费额度也能用。

玩法 2:语音转写(长音频)

讯飞的”语音转写”接口支持长达 5 小时的音频转写,带说话人区分、敏感词过滤、章节划分;适合做会议纪要、课程录音、采访整理。

玩法 3:私有化部署

企业级用户可以购买讯飞私有化部署方案,把语音 AI 部署到本地服务器,数据不出公司,适合金融、医疗、政务等敏感行业;价格需要和销售谈。

小技巧

  1. WebSocket 客户端用官方 demo:讯飞官网有完整的 Python/Java/iOS/Android demo 代码,改 APPID/APIKey 就能跑,比自己从零写省时省力。
  2. 音频分片处理:长音频按 30-60 秒切片分别调用 ASR,稳定性比一次性传好得多。
  3. 音色编号查文档:音色库经常更新,新项目务必查 https://www.xfyun.cn/services/online_tts 文档,别凭记忆写。
  4. 使用 SSML:超拟人 TTS 支持 SSML 标签,可以控制情感、语速、音量,精细度比普通 TTS 高。
  5. 配置监控告警:讯飞控制台有 API 调用监控,做商用前必须配置预算告警,避免天价账单。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. 讯飞开放平台

讯飞开放平台 完整使用指南

科大讯飞推出的以语音交互为核心的 AI 能力开放平台,服务数百万开发者,提供 ASR、TTS、NLU、OCR、机器翻译与星火大模型。

评分: 9.0/10 价格: 免费层 + 按量计费 + 商用定制 厂商: 科大讯飞 官网: xfyun.cn


目录

  1. 什么是讯飞开放平台
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

打开 Chrome 浏览器,访问 https://www.xfyun.cn 讯飞开放平台,点右上角”注册”用手机号免费注册(国内服务,需实名认证才能领取更多免费额度,个人/企业均可)。登录后进入”控制台” → “我的应用” → 点”创建新应用”,填写应用名(如 tts-demo)、选平台(默认 WebAPI)、选”语音合成”+“语音听写”能力。提交后点开新应用,把”APPID、APIKey、APISecret”三组凭证复制到记事本保存。新用户每天免费 500 次语音合成 + 500 次语音听写,够个人体验所有功能。无需 GPU,云端处理。

第 2 步:跟着做

零代码体验:控制台 → “语音合成” → “在线语音合成” → “服务管理” → 点”试用”,在新页面文本框粘贴中文(比如”你好,这是讯飞语音合成测试”),选发音人(基础免费的有 xiaoyan 女生、aisjiuxu 男声,精品 2 万/年),调好音量/语速/语调,点”开始合成” 几秒后能直接播放并下载 MP3。完全免代码。

Python 集成(短文本):

pip install websocket-client
import websocket, json, time, hmac, hashlib, base64, urllib.parse
from datetime import datetime
from wsgiref.handlers import format_date_time

APPID, API_KEY, API_SECRET = "你的APPID", "你的APIKey", "你的APISecret"
TEXT = "你好,这是讯飞语音合成测试"

# 1. 生成签名(完整逻辑,直接复制可用)
host, path = "cbn.cn-huabei-1.xf-yun.com", "/v1/private/mcd9m"
url = f"wss://{host}{path}"
date = format_date_time(time.mktime(datetime.now().timetuple()))
signature_origin = f"host: {host}\ndate: {date}\nGET {path} HTTP/1.1"
signature_sha = hmac.new(API_SECRET.encode(), signature_origin.encode(), hashlib.sha256).digest()
authorization = base64.b64encode(f'api_key="{API_KEY}", algorithm="hmac-sha256", headers="host date request-line", signature="{signature_sha.hex()}"'.encode()).decode()
v = {"authorization": authorization, "date": date, "host": host}
url += "?" + urllib.parse.urlencode(v)

# 2. WebSocket 收发(完整 demo 见 https://www.xfyun.cn/doc/asr/voicedictation/API.html)
# 收到音频数据后 base64 解码存为 out.pcm,再用 ffmpeg 转 mp3: ffmpeg -f s16le -ar 16000 -ac 1 -i out.pcm out.mp3

签名逻辑稍长(完整 ~40 行 WebSocket 代码),建议直接复制 官方 WebAPI 文档 的 Python 3 Demo,替换凭证即可。

第 3 步:验证

成功标志:控制台试听听到流畅中文发音,基础音库免费,小燕/许久音色质量稳定;Python 端拿到 PCM 音频数据,经 ffmpeg 转 MP3 后大于 5KB 可正常播放。下一步建议:实时性要求高(语音助手/数字人)改用”流式版”WebAPI,首字延迟 <200ms;长文本(超过 8000 字符)用”长文本语音合成”批量接口;想做”声音复刻”开通”个性化语音合成”能力,上传 5-10 分钟干净人声,几小时生成专属发音人;商业应用必须购买套餐并申请商用授权,个人学习可免费用。


什么是讯飞开放平台

讯飞开放平台(xfyun.cn)由科大讯飞股份有限公司推出,成立于 1999 年的科大讯飞是中国最大的智能语音技术提供商和人工智能上市公司(深交所代码:002230),拥有语音及语言处理国家工程实验室、认知智能国家重点实验室等国家级科研平台,多次在 Blizzard Challenge(语音合成国际评测)、CHiME(语音识别国际评测)等国际权威赛事中夺冠。

讯飞开放平台是科大讯飞把核心 AI 能力对外商业化的统一入口,定位”以语音交互为核心的人工智能开放平台”,以”云+端”形式免费开放语音识别(ASR)、语音合成(TTS)、语音唤醒、声纹识别、自然语言理解(NLU)、机器翻译、OCR 文字识别、人脸识别、星火认知大模型等多项能力,服务超过数百万开发者,覆盖智能家居、智慧教育、智能汽车、智能客服、医疗、政务等领域。

在中文语音领域,讯飞的核心数据是”语音识别准确率超过 98%,语音合成 MOS 评分达 4.5 分以上(媲美真人发音)“,在方言覆盖(粤语、四川话、河南话、东北话等)、嘈杂环境识别、童声与情感 TTS、车载离线语音等场景被公认为国内领先。2024 年,科大讯飞把星火大模型 API 与语音能力整合,推出”一句话复刻”声音克隆技术,只需要一句话录音即可复刻用户声纹,目前在智能汽车(蔚来、奇瑞、广汽、长城、日产、本田等)、教育(学习机)、医疗(导诊机器人)、金融(智能客服)等场景广泛落地。

核心功能

  1. 语音识别 API(ASR) — 普通话、粤语、英语、四川话等多语种与方言,支持流式识别(边说边出字)、离线识别 SDK、自定义热词与语法,识别准确率 98%+,广泛用于会议记录、庭审记录、客服转写。
  2. 语音合成 API(TTS) — 提供 100+ 音色(男女声、童声、方言、情感),支持多情感表达(高兴、悲伤、愤怒、严肃等),可调节语速、音量、音调,MOS 评分 4.5+。
  3. 一句话声音复刻 — 基于星火语音大模型,仅一句话录音即可复刻用户音色,包含音色特质、发音习惯、停顿、情感等,音色相似度与准确度行业领先。
  4. 星火认知大模型 API — Spark Lite / Pro / Max / 4.0 Turbo 等多档模型,涵盖文本生成、代码、推理、多轮对话,2024 年 5 月起 Lite 永久免费、Pro/Max 低至 0.21 元/万 tokens。
  5. OCR / 翻译 / 人脸识别等全栈 AI — 一站式提供 OCR 文字识别、机器翻译(中英/小语种)、人脸识别、声纹识别、语音唤醒等,适合需要”全家桶”的开发者。

如何使用

注册和入门

访问 xfyun.cn,点击右上角”注册”使用手机号创建账号,完成实名认证(个人身份证或企业营业执照)。登录后进入”控制台 > 我的应用”,点击”创建新应用”,选择需要的能力(语音识别/语音合成/星火大模型等),系统会生成一组凭证:APPID、APIKey、APISecret。新用户每个能力都有免费调用额度(ASR 每日 500 次、TTS 每日 500 次、Star 语音免费 5 小时),够做技术评估与小规模测试。

基础操作流程

在线体验:控制台”语音合成 > 在线体验”页面直接输入文本、选择音色(小燕、小萍、许久、许小宝等)与情感,试听并下载 MP3,适合做快速音色评估。Python SDK 集成:pip install websocket-client,使用官方示例代码即可在数十行内完成 WebSocket 流式 TTS 调用;星火大模型可通过 POST https://spark-api-open.xf-yun.com/v1/chat/completions 调用,请求体传入 modelmessages 等标准 OpenAI 兼容字段。SpeechJava / iOS / Android SDK 也都提供,适合不同端集成。

高级技巧

长语音 ASR 推荐使用”语音转写”通道(支持小时级录音文件),开启”说话人分离”与”敏感词过滤”可提升会议记录效率;WebSocket 流式 TTS 首字节延迟可控制在 200ms 以内,适合车载与对话场景;声音复刻后建议先用 5–10 个目标文本做小批量测试,验证相似度;星火大模型与语音的”端到端”链路(如实时语音对话、超拟人情感)可通过”星火极速超拟人交互”API 体验,2024 年 8 月起在讯飞星火 App 开放。

价格方案

方案价格核心权益
免费层0ASR 每日 500 次、TTS 每日 500 次、5 小时语音合成体验
语音识别(短语音)约 ¥0.0001/次起(具体以官网为准)60 秒以内,标准准确率
语音转写(长语音)阶梯计费(2 元/小时起)小时级录音,说话人分离
语音合成(在线)约 ¥0.025/千字符标准音色,商用授权
定制音库议价(约 ¥15 万起/年)商用授权、品牌声纹
星火 Lite API永久免费适合轻量级对话、文本生成
星火 Pro/Max API低至 0.21 元/万 tokens复杂推理、长文本
乐享会员(企业级)议价1V1 技术支持、SLA 保障、交叉编译

竞品对比

维度讯飞开放平台百度 AI 开放平台Azure Speech
价格(中文 TTS)约 ¥0.025/千字符¥0.025–0.05/千字符约 ¥95.4/100 万字
核心优势中文方言丰富、本土合规、星火大模型生态视觉/NLP 生态、精品音色140+ 语言、SLA、SSML
适合人群政企、车载、教育、医疗互联网产品、视觉/OCR跨国业务、跨国 SaaS

优缺点

优点:

  • 中文语音识别与合成技术积累深厚(20+ 年),中文方言与嘈杂环境表现业内靠前
  • AI 能力覆盖广(语音、语义、视觉、翻译、星火大模型),“一家平台搞定”
  • 国内合规与发票支持完善,适合政企采购
  • 车载、教育、医疗等垂直行业方案成熟,提供从算法到硬件的端到端服务

缺点:

  • 国际版体验弱,出海项目不如 Azure
  • 部分高级能力(超拟人、声音复刻)需要走申请流程,审批周期较长
  • SDK 与文档分散在不同子产品下,新手需要时间熟悉控制台
  • 价格透明度相比 Azure、AWS 略弱,需要查具体能力页面

常见问题

Q1: 讯飞开放平台和”讯飞星火”是什么关系? A1: 讯飞开放平台是科大讯飞的核心 AI 能力商业化入口,涵盖语音、视觉、翻译等多个子产品;讯飞星火是其中新增的认知大模型产品,提供文本生成、对话等能力。两者共用账号与计费,可在 xfyun.cn 统一访问。

Q2: 中文方言支持怎么样? A2: 讯飞在中文方言覆盖上长期处于行业前列,支持普通话、粤语、四川话、河南话、东北话、上海话等数十种方言与口音,准确率与体验经过大量真实场景验证。

Q3: 离线 SDK 怎么获取? A3: 在控制台申请离线授权后,下载对应平台(Android/iOS/Linux/Windows/嵌入式)的离线 SDK 包,按文档集成即可。离线 SDK 通常需要购买商业授权,适合车载、IoT 等无网络或弱网络环境。

总结建议

讯飞开放平台是国内”AI 能力全家桶”的代表,适合对中文语音有高质量要求、需要政企合规、需要把多种 AI 能力(语音 + 视觉 + 翻译 + 大模型)统一管理的团队。如果你的项目是 ToB 政企、车载、教育、医疗,讯飞的本地化、合规与端到端方案非常完整;如果是 C 端 App 或出海产品,可以把讯飞与百度、Azure 做小范围对比,根据价格、音色质量、SDK 易用性综合选型。日常使用建议先在控制台”在线体验”页面试听音色,再决定是否集成到产品中。

同分类推荐

AI音频 分类下的其他工具