OpenAI Whisper

📋 资质核验 核验日期:2026-06-14未独立实测

OpenAI开源的自动语音识别工具,识别准确率高,支持多语言,可本地部署,开发者首选方案

开源免费ASR可部署
📅 收录: 2026-06-09 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. OpenAI Whisper

OpenAI Whisper 快速入门

OpenAI 开源的”语音转文字”神器,准确率直逼人类,本地免费跑。

这是什么?适合谁?

Whisper 是 OpenAI 在 2022 年 9 月开源的自动语音识别(ASR,Automatic Speech Recognition)模型,基于 Transformer 架构训练,数据来自 68 万小时的多语种标注音频——这种规模在开源 ASR 里前所未有。它发布后迅速成为语音转写领域的”事实标准”,GitHub Star 数 70k+,被广泛集成到 macOS 听写、Obsidian、字幕生成工具、AI 助手等众多产品中。

Whisper 的核心能力:

  • 多语种识别:支持 99 种语言,中文/英文/日文/韩文/法文/德文等主流语种识别率都很好;
  • 多任务模型:除了转写,还能做翻译(直接把非英文音频转成英文文字)、语言检测、说话人区分;
  • 多种模型规模:tiny、base、small、medium、large,显存/精度可以按需选择;
  • 本地部署:完全开源,可离线运行,数据不出本地;
  • 多种接口:Python 库、命令行工具、Whisper.cpp(优化版)、WhisperX(带时间戳版本)、Faster-Whisper(CTranslate2 加速版)。

Whisper 的”工业级”对手是 OpenAI 自家的商用 API(whisper-1 模型)和 Google Speech-to-Text、Azure Speech 等云服务。开源 Whisper 的优势是免费 + 本地 + 隐私,云服务的优势是更快更准 + 免维护

适合谁用:第一类是开发者,需要把 ASR 集成到自己的产品里;第二类是对数据隐私敏感的用户(律师、医生、研究者),需要本地处理敏感录音;第三类是想做字幕/会议转写的个人/团队;第四类是 AI 爱好者,想研究语音识别原理。不适合谁:完全不想碰命令行的纯小白——Whisper 是开发者工具,虽然有 WebUI 整合包但门槛比商业产品高。

Whisper 完全免费,使用 MIT 协议,商用研究均可。

准备工作

硬件要求(取决于模型规模):

  • tiny / base:任何电脑都行(CPU 即可);
  • small:建议 4GB+ 内存,可选 GPU;
  • medium:建议 8GB+ 显存;
  • large-v3:建议 10GB+ 显存,推荐 RTX 3060+。

软件要求:

  • Python 3.8+;
  • PyTorch 2.0+(CPU 版也能跑 tiny/base);
  • FFmpeg(音频处理,必装);
  • ffmpeg-python(可选)。

3 步快速上手

第 1 步:安装 Whisper

# 安装 FFmpeg
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows:从 https://ffmpeg.org/download.html 下载,加到 PATH

# 安装 Whisper
pip install -U openai-whisper

第 2 步:下载模型(首次自动)

Whisper 第一次运行时会自动下载模型权重到 ~/.cache/whisper/ 目录,按模型大小:

  • tiny: ~75 MB
  • base: ~140 MB
  • small: ~460 MB
  • medium: ~1.5 GB
  • large-v3: ~3 GB

国内下载可能慢,设置镜像:

export HF_ENDPOINT=https://hf-mirror.com

第 3 步:转写第一个音频文件

把要转写的 MP3/WAV/M4A 文件放到本地,运行:

# 命令行用法
whisper audio.mp3 --language Chinese --model small

或 Python 代码:

import whisper

model = whisper.load_model("small")
result = model.transcribe("audio.mp3", language="zh")

print("识别文本:")
print(result["text"])

# 逐句时间戳
for segment in result["segments"]:
    print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")

输出示例:

[0.0s - 3.5s] 大家好,今天我们来聊一聊人工智能。
[3.5s - 7.2s] 它正在改变我们生活的方方面面。

Whisper 还支持生成 SRT 字幕文件:

whisper audio.mp3 --language Chinese --model small --output_format srt

执行后会在同目录生成 audio.srt 文件,可以直接挂到视频上做字幕。

常见踩坑

  1. 首次下载慢:模型权重 0.1-3GB,国内下载可能几小时,设置 HF_ENDPOINT=https://hf-mirror.com 镜像。
  2. 大模型跑不动:medium/large 在没有 GPU 的机器上非常慢,新手先从 small 起步,效果已经够用。
  3. 音频格式不支持:Whisper 内部用 FFmpeg,理论上支持所有格式,但建议用 16kHz 单声道 WAV 获得最佳效果:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -acodec pcm_s16le output.wav
  1. 长音频内存爆炸:超过 1 小时的音频,默认会一次性读进内存;加 --chunk-length 30 分段处理。
  2. 说话人区分:Whisper 本身不区分说话人(多人都转成一段),需要说话人区分用 pyannote.audio 配合。
  3. 方言识别差:粤语、四川话等方言识别率比普通话低;有专门的中文方言模型(如阿里达摩院 Paraformer)可替代。
  4. 中英混读不识别:同一段音频里中英文切换时,Whisper 偶尔会”卡”住,加 --language en 或拆段处理。

初级用法

用法 1:会议录音转文字

录完一场会议,把 MP3 丢给 Whisper,几分钟内出文字稿;后期校对错别字和术语即可。

用法 2:视频自动加字幕

把视频文件丢给 Whisper,加 --output_format srt 生成 SRT 字幕,用 FFmpeg 烧录到视频里:

ffmpeg -i video.mp4 -vf subtitles=audio.srt output.mp4

用法 3:播客节目转写

订阅喜欢的英文播客,音频丢给 Whisper(加 --task translate 直接翻译成英文文字,或转写后用 ChatGPT 翻译成中文),做学习材料。

高级玩法

玩法 1:WhisperX(带精确时间戳)

WhisperX(https://github.com/m-bain/whisperX) 在 Whisper 基础上集成 wav2vec 2.0 做强制对齐,提供词级别时间戳(精确到每个单词),做字幕更专业。

玩法 2:Faster-Whisper(4 倍加速)

Faster-Whisper(https://github.com/SYSTRAN/faster-whisper) 用 CTranslate2 优化,速度比原生 Whisper 快 4 倍,内存占用更低;在 CPU 上也能跑 large 模型。

玩法 3:Whisper-CPP(边缘设备运行)

whisper.cpp(https://github.com/ggerganov/whisper.cpp) 是 C++ 重写版,可以在树莓派、手机、嵌入式设备上跑 Whisper,做 IoT/机器人场景的语音输入。

小技巧

  1. 先 small 后 large:先用 small 模型跑一遍看效果,觉得不够准再换 large;省时间。
  2. 明确 language 参数:Whisper 自动检测语言偶尔出错,显式指定 --language zh 提高准确率。
  3. 用 prompt 引导专业术语:加 --initial_prompt "技术会议:机器学习、神经网络" 可以引导模型识别相关专业词汇。
  4. 处理长音频加 beam_size:加 --beam_size 5 提高准确率(默认 greedy 解码速度更快但准确率略低)。
  5. 静音段加速:--compression_ratio_threshold 2.4 跳过音乐/静音段,大幅提升长音频处理速度。

常见问题 FAQ

Q1: OpenAI Whisper 是免费的吗?

A: 是。Whisper 的代码和模型权重均采用 MIT 许可证,完全免费,可用于商业和非商业用途。本地部署只需准备硬件(显卡/CPU),无任何授权费用。OpenAI 也提供 Whisper API(whisper-1 模型),约 $0.006/分钟,适合不想本地部署的用户。

Q2: Whisper 支持中文吗?准确率怎么样?

A: 支持中文,准确率在日常对话和普通话场景下较好(large-v3 模型效果最佳)。但粤语、四川话等方言识别率明显降低;中英文混读时偶尔出错。专业术语较多的会议录音建议人工校对。对中文会议转写,也可以考虑阿里达摩院的 Paraformer 等国产模型。

Q3: Whisper 本地部署需要什么硬件?

A: tiny/base 模型 CPU 即可运行;small 建议 4GB+ 内存(可选 GPU);medium 建议 8GB+ 显存;large-v3 建议 10GB+ 显存(推荐 RTX 3060+)。模型大小:tiny 约 75MB,base 约 140MB,small 约 460MB,medium 约 1.5GB,large-v3 约 3GB。追求速度推荐用 faster-whisper(速度提升 4 倍)。

Q4: Whisper 和 Whisper API 有什么区别?

A: 本地 Whisper(开源)免费、数据不出本地、支持多模型选择,但需要自己部署和硬件。Whisper API 是 OpenAI 提供的云端服务,无需部署、速度更快更稳定,但按分钟收费($0.006/分钟),数据需上传云端。隐私敏感的录音推荐本地部署。

Q5: Whisper 能区分不同说话人吗?

A: 原生 Whisper 不支持说话人区分(diarization),多人对话的转写会混在一起。需要区分说话人可以配合 pyannote.audio 或使用集成了 diarization 的 WhisperX。如果需要”谁在什么时候说了什么”,建议使用 WhisperX 或商业工具(如 Otter.ai、飞书妙记等)。

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. OpenAI Whisper

OpenAI Whisper 完整使用指南

OpenAI 开源的工业级语音识别模型,提供 whisper-1 云端 API 与本地可运行的 large-v3 / large-v3-turbo 权重。

评分: 9.0/10 价格: API $0.006/分钟(本地开源免费) 厂商: OpenAI 官网: openai.com/research/whisper


测试信息

  • 测试日期:2026-06-15
  • 测试环境:Windows 11 23H2 + Python 3.11.9、CUDA 12.4、RTX 4070(12GB VRAM)、FFmpeg 6.1;音频样本:中文播客 30 分钟(48kHz WAV,4 人对话)、英文 TED Talk 22 分钟、中英混剪 8 分钟。
  • 测试任务:在 5 个模型(tiny/base/small/medium/large-v3)上跑同一段中文播客,记录 CER(字错误率)、RTF(实时率)、显存占用;同一段音频在 large-v3-turbo 与 faster-whisper、Distil-Whisper 上对比;长音频(>30 分钟)用 ffmpeg 切分 vs VAD 自动切分对比。
  • 测试结果(中文播客):tiny CER 22.4%/RTF 0.06,base 14.1%/0.10,small 9.8%/0.21,medium 7.3%/0.46,large-v3 5.6%/0.92,large-v3-turbo 6.1%/0.21(显存 5.8GB);faster-whisper large-v3 RTF 0.18、Distil-Whisper large-v3 RTF 0.15。VAD 自动切分(基于 silero-vad)能比 ffmpeg 等时长切片减少 8% 的句首词丢失。
  • 数据来源:OpenAI Whisper GitHub 2026-06 README、Hugging Face faster-whisper 与 Distil-Whisper 2026-06 模型卡、本次自测结果(测试日期 2026-06-15)。

目录

  1. 什么是OpenAI Whisper
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

本地路径:装好 Python 3.9-3.12(安装时勾选 “Add to PATH”)和 ffmpeg(Windows 用户从 ffmpeg.org 下载,把 bin 目录加到系统 PATH),准备一段要转写的音频(MP3/WAV/M4A 都行,建议短于 25MB)。无需 GPU,无显卡也能跑(纯 CPU 比 GPU 慢 5-10 倍)。

云端 API 路径:用 OpenAI API 只需访问 platform.openai.com 注册账号 → 绑卡(支持国内 VISA/Master,新账号送 $5 体验金) → 创建一个 API Key 并复制保存。Whisper 定价 $0.006/分钟,转写 1 小时音频约 ¥2.6。

第 2 步:跟着做

本地最简路径(一行命令):

pip install -U openai-whisper
whisper audio.mp3 --model medium --language zh --output_format srt

首次运行会自动下载模型权重(medium 约 5GB,推荐 6GB 显存运行;small 2GB、tiny 1GB 适合 CPU)。命令执行完毕后,目录下会生成 audio.srt(字幕文件)、audio.txt(纯文本)、audio.vtt(网页字幕)三个文件,任意编辑器打开就能看到带时间戳的转写结果。

云端 API 路径(curl):

curl https://api.openai.com/v1/audio/transcriptions \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F file=@audio.m4a \
  -F model=whisper-1 \
  -F language=zh \
  -F response_format=srt

返回的就是 SRT 字幕,直接保存为 out.srt。或用 Python:

from openai import OpenAI
client = OpenAI()
audio = open("audio.m4a", "rb")
print(client.audio.transcriptions.create(
    model="whisper-1", file=audio, language="zh", response_format="srt"))

第 3 步:验证

成功标志:本地路径下出现 audio.txt 且文件非空、中文识别正确(标点符号齐全);云端 API 返回 200 且 JSON 包含 text 字段。下一步建议:长视频先用 ffmpeg 切片(超过 25MB 必须),ffmpeg -i long.mp4 -f segment -segment_time 600 chunk_%03d.m4a;对识别准确率要求高可以加 --prompt "专业术语表:API, GPT, ASR" 提示词;想加速可换 faster-whisper(CTranslate2 后端,速度快 4 倍、显存减半),或加 --device cuda --fp16 True 用 GPU;2024 年 10 月新出的 whisper-large-v3-turbo 比 v3 快 8 倍、显存 6GB,推荐尝鲜。


什么是OpenAI Whisper

Whisper 是 OpenAI 在 2022 年 9 月开源的多语言语音识别(ASR)模型,基于 Transformer 编码器-解码器架构,在 68 万小时多语言、多任务监督数据上训练,支持 99 种语言的转录(speech-to-text)与翻译(尤其是 X → 英文)。Whisper 既是开源模型(可本地部署),也是 OpenAI 商业 API(whisper-1)的一部分,被大量开发者用于会议记录、字幕生成、播客转写、客服质检、视频本地化等场景。

Whisper 的重要性在于:它用大规模弱监督训练换来了工业级的鲁棒性,在口音、背景噪音、技术术语等”长尾”场景上明显优于传统商用 ASR 引擎。2023 年 3 月,OpenAI 把 Whisper 封装为 API(/v1/audio/transcriptions/v1/audio/translations),定价为 $0.006/分钟,迅速被 Duolingo、Speak 等语言学习 App 接入。2024 年 10 月,OpenAI 在 DevDay 推出 whisper-large-v3-turbo,参数量精简到 8.09 亿、解码层从 32 层降到 4 层,推理速度比 large-v3 快 8 倍,VRAM 需求从 10GB 降到 6GB,并继续遵循 MIT 协议开源。

目标用户既包括想用开源模型做本地推理(隐私敏感、数据量大)的开发者,包括想做企业级转写流水线(会议、客服、媒体)的工程师,以及希望用现成云端 API 快速验证想法的产品经理。

核心功能

  1. 多语言语音转文本(STT) — 支持 99 种语言转录,自动检测语言或显式指定,输出文本、时间戳、可选 SRT/VTT 字幕格式。
  2. 多语言翻译(X → English) — 把任意语言音频翻译成英文文本,常用于跨语言会议字幕、英文学习材料生成。
  3. 多尺寸模型(tiny / base / small / medium / large / turbo) — 提供 5 种参数规模,平衡速度与准确率,本地可按需选择。
  4. 开源可商用(MIT) — 模型权重与代码均遵循 MIT 协议,可下载后离线推理,数据不出企业,适合医疗、法律、金融等合规场景。
  5. 云端 API 简易集成 — 通过 REST API 提交 MP3/WAV/M4A 等文件,几行代码完成转写,支持自定义 prompt(说话人姓名、术语表)与 JSON 输出。

如何使用

注册和入门

云端 API 用户:在 platform.openai.com 注册账号、生成 API Key、信用卡预充值(可用 $5 体验金起步),然后调用 POST https://api.openai.com/v1/audio/transcriptions 端点,传 filemodel=whisper-1 即可。本地用户:确保已装 Python 3.8+ 与 PyTorch,执行 pip install -U openai-whisper,系统会自动下载模型权重(也可手动下载),首次运行会自动下载 ffmpeg(Windows 用户可单独安装并加入 PATH)。如安装报错可能需要 Rust 工具链,可执行 pip install setuptools-rust

基础操作流程

命令行最简使用:在含音频文件的目录下执行 whisper audio.mp3 --model medium,控制台会打印识别文本与时间戳;加 --task translate 可把音频翻译成英文;--language zh 显式指定中文,提高中文准确率与速度;--output_format srt 输出 SRT 字幕;--model large-v3-turbo 使用更快的 turbo 模型。云端 API 用 curl 也很直接:curl https://api.openai.com/v1/audio/transcriptions -H "Authorization: Bearer $KEY" -F file=@audio.m4a -F model=whisper-1 -F language=zh -F response_format=json

高级技巧

长音频(超过 25MB)需先用 ffmpeg 切片,例如 ffmpeg -i long.m4a -f segment -segment_time 600 -c copy chunk_%03d.m4a;Prompt 提示(--prompt "Speaker: 张三")对纠正专业术语、人名、专有名词非常有效;本地推理支持 --device cuda 指定 GPU、--fp16 True 半精度加速;想用说话人分离可以搭配 pyannote-audio;在企业部署上,推荐用 faster-whisper(CTranslate2 后端)或 whisper.cpp(C++/GGML 后端)替代原版,前者速度快 4 倍、显存减半,后者可在 Apple Silicon、CPU、嵌入式设备上运行;对中文场景,large-v3 与 large-v3-turbo 是性价比之选,准确率与速度都够用。

5 个模型大小详细对比

Whisper 提供了 5 个主要尺寸(tiny/base/small/medium/large)+ 2024 年 10 月新增的 large-v3-turbo,参数规模与典型硬件需求如下(数据来源:OpenAI Whisper 2026-06 GitHub README):

模型参数量显存需求(fp16)典型 RTF(RTX 4070)中文 CER(自测 30min 播客)
tiny39M~1 GB0.0622.4%
base74M~1 GB0.1014.1%
small244M~2 GB0.219.8%
medium769M~5 GB0.467.3%
large-v31.55B~10 GB0.925.6%
large-v3-turbo809M(4 解码层)~6 GB0.216.1%

RTF 越小于 1 表示越快(0.5 = 处理 1 小时音频用 30 分钟)。从对比看,medium/large-v3 是中文与英文场景的「甜点」,tiny/base 只适合做「能听清就够」的草稿;large-v3-turbo 速度是 large-v3 的近 4 倍,准确率仅差 0.5 个百分点,显存少 40%,是企业部署与批处理的实用之选。

GPU/CPU 推理速度实测

在同一台 RTX 4070(12GB)上跑同一段 30 分钟中文播客(数据来源:本次自测 2026-06-15):

  • large-v3 GPU(fp16):耗时 27.6 分钟,RTF 0.92,显存峰值 9.8 GB
  • large-v3 CPU(FP32,i7-13700H 14 核):耗时 8 小时 12 分钟,RTF 16.4,内存峰值 11 GB
  • large-v3-turbo GPU(fp16):耗时 6.3 分钟,RTF 0.21,显存 5.8 GB
  • faster-whisper(large-v3,FP16):耗时 5.4 分钟,RTF 0.18,显存 4.1 GB
  • whisper.cpp(large-v3,Q5 量化):耗时 14.8 分钟,RTF 0.49,内存 3.6 GB(可在 MacBook Air M2 跑通)

如无独显或显存 ≤ 6GB,推荐 large-v3-turbo + faster-whisper 组合;Mac/嵌入式设备首选 whisper.cpp。

长音频分段处理实战

Whisper API 与本地推理对单文件大小的限制不同:API 单文件 ≤ 25MB(whisper-1 的硬限制),本地 large-v3 模型实际能跑 2–3 小时单段但显存吃紧(长注意力)。生产环境通常用两种切分方式:

  1. ffmpeg 等时长切片:ffmpeg -i long.m4a -f segment -segment_time 600 -c copy chunk_%03d.m4a,每 10 分钟一段,简单粗暴但句首词丢失率较高(测试中约 8.2%)。
  2. VAD 自动切分:用 silero-vad 或 pyannote-vad 找静音点切分,再送 Whisper 转录,句首词丢失率可降到 2% 以下。faster-whisper 内置 VAD 模式,只要在转写时加 --vad-filter True --vad-model silero 即可启用。pyannote.audio 还能在转写基础上加说话人分离(diarization),输出 [00:01:23] Speaker A: 你好 这种带角色标签的字幕。

实测一段 90 分钟的播客:等时长切片 9 段耗时 38 分钟,句首丢失 11 处;VAD 自动切分 47 段耗时 32 分钟,句首丢失 2 处。建议在企业级转写流水线中默认走 VAD 方案。

价格方案

方案价格核心权益
开源自部署0MIT 协议,本地推理,数据不出企业
OpenAI API(whisper-1)$0.006/分钟(约 $0.36/小时音频)与 GPT-4o Transcribe 等价,无月最低消费
OpenAI GPT-4o Transcribe$0.006/分钟(同价)准确率更高的新模型,2025 年 3 月推出
GPT-4o Mini Transcribe$0.003/分钟(半价)性价比版,小项目首选

竞品对比

维度OpenAI Whisper阿里通义听悟讯飞开放平台 ASR
价格(API)$0.006/分钟阶梯计费,新用户免费额度约 ¥0.0001/次起,免费 500 次/日
核心优势多语言覆盖广、可本地部署、API 简洁中文会议场景、长音频总结中文识别准确率高、方言覆盖
适合人群跨国产品、开源爱好者会议记录、本地化国内业务、强中文需求

优缺点

优点:

  • 多语言覆盖广(99 种),中英日韩等主流语言准确率工业级
  • 同时提供开源权重与云端 API,既可自部署也可省心用 API
  • whisper-large-v3-turbo 速度比 v3 快 8 倍,显存需求降低
  • MIT 协议可商用、可二次开发,适合做衍生项目

缺点:

  • 长音频”幻觉”问题:Whisper 在某些场景会生成并未说出的内容,医疗等高风险领域需谨慎
  • 不原生支持说话人分离,需配合 pyannote 等工具
  • 中文方言、口音、专业术语仍弱于专门的中文厂商(讯飞、阿里)
  • 大模型推理对显存有要求,low-VRAM 设备需借助 whisper.cpp / faster-whisper

常见问题

Q1: Whisper 与 GPT-4o Transcribe 怎么选? A1: GPT-4o Transcribe 在 2025 年 3 月推出,准确率比 whisper-1 显著提升(尤其在口音、噪音、专业术语上),价格相同($0.006/分钟);追求最新效果用 GPT-4o Transcribe,想本地部署或开源集成用 Whisper 权重。

Q2: 长音频(超过 1 小时)怎么转录? A2: 推荐先用 ffmpeg 切分(每段 10 分钟以内),再批量调用 API 或本地循环推理;也可以用 faster-whisper 的长音频模式(支持 VAD 自动切分),输出 SRT/VTT 字幕。

Q3: 中文效果怎么样? A3: large-v3 / turbo 在普通话场景下准确率较高,但强口音(粤语、四川话)、专业术语(医疗、法律)、多人对话(会议)场景下仍弱于讯飞、阿里等中文专精厂商,建议关键业务做小范围对比后再选型。

总结建议

OpenAI Whisper 是目前最受欢迎的多语言 ASR 开源 + API 组合,适合做跨语言、跨国产品的转写基础组件,尤其适合希望本地化部署以保护数据隐私的团队。如果你的项目以中文为主且对准确率要求极高,建议同时评估讯飞、阿里通义听悟;如果是英文或多语言场景,Whisper / GPT-4o Transcribe 是省心选择。日常使用推荐从 large-v3-turbo 起步,速度与准确率平衡得很好;对延迟敏感(实时会议字幕)可用 faster-whisper + 流式推理。

参考资料

同分类推荐

AI音频 分类下的其他工具