1. OpenAI Whisper
OpenAI Whisper 快速入门
OpenAI 开源的”语音转文字”神器,准确率直逼人类,本地免费跑。
这是什么?适合谁?
Whisper 是 OpenAI 在 2022 年 9 月开源的自动语音识别(ASR,Automatic Speech Recognition)模型,基于 Transformer 架构训练,数据来自 68 万小时的多语种标注音频——这种规模在开源 ASR 里前所未有。它发布后迅速成为语音转写领域的”事实标准”,GitHub Star 数 70k+,被广泛集成到 macOS 听写、Obsidian、字幕生成工具、AI 助手等众多产品中。
Whisper 的核心能力:
- 多语种识别:支持 99 种语言,中文/英文/日文/韩文/法文/德文等主流语种识别率都很好;
- 多任务模型:除了转写,还能做翻译(直接把非英文音频转成英文文字)、语言检测、说话人区分;
- 多种模型规模:tiny、base、small、medium、large,显存/精度可以按需选择;
- 本地部署:完全开源,可离线运行,数据不出本地;
- 多种接口:Python 库、命令行工具、Whisper.cpp(优化版)、WhisperX(带时间戳版本)、Faster-Whisper(CTranslate2 加速版)。
Whisper 的”工业级”对手是 OpenAI 自家的商用 API(whisper-1 模型)和 Google Speech-to-Text、Azure Speech 等云服务。开源 Whisper 的优势是免费 + 本地 + 隐私,云服务的优势是更快更准 + 免维护。
适合谁用:第一类是开发者,需要把 ASR 集成到自己的产品里;第二类是对数据隐私敏感的用户(律师、医生、研究者),需要本地处理敏感录音;第三类是想做字幕/会议转写的个人/团队;第四类是 AI 爱好者,想研究语音识别原理。不适合谁:完全不想碰命令行的纯小白——Whisper 是开发者工具,虽然有 WebUI 整合包但门槛比商业产品高。
Whisper 完全免费,使用 MIT 协议,商用研究均可。
准备工作
硬件要求(取决于模型规模):
- tiny / base:任何电脑都行(CPU 即可);
- small:建议 4GB+ 内存,可选 GPU;
- medium:建议 8GB+ 显存;
- large-v3:建议 10GB+ 显存,推荐 RTX 3060+。
软件要求:
- Python 3.8+;
- PyTorch 2.0+(CPU 版也能跑 tiny/base);
- FFmpeg(音频处理,必装);
- ffmpeg-python(可选)。
3 步快速上手
第 1 步:安装 Whisper
# 安装 FFmpeg
# macOS
brew install ffmpeg
# Ubuntu/Debian
sudo apt install ffmpeg
# Windows:从 https://ffmpeg.org/download.html 下载,加到 PATH
# 安装 Whisper
pip install -U openai-whisper
第 2 步:下载模型(首次自动)
Whisper 第一次运行时会自动下载模型权重到 ~/.cache/whisper/ 目录,按模型大小:
- tiny: ~75 MB
- base: ~140 MB
- small: ~460 MB
- medium: ~1.5 GB
- large-v3: ~3 GB
国内下载可能慢,设置镜像:
export HF_ENDPOINT=https://hf-mirror.com
第 3 步:转写第一个音频文件
把要转写的 MP3/WAV/M4A 文件放到本地,运行:
# 命令行用法
whisper audio.mp3 --language Chinese --model small
或 Python 代码:
import whisper
model = whisper.load_model("small")
result = model.transcribe("audio.mp3", language="zh")
print("识别文本:")
print(result["text"])
# 逐句时间戳
for segment in result["segments"]:
print(f"[{segment['start']:.1f}s - {segment['end']:.1f}s] {segment['text']}")
输出示例:
[0.0s - 3.5s] 大家好,今天我们来聊一聊人工智能。
[3.5s - 7.2s] 它正在改变我们生活的方方面面。
Whisper 还支持生成 SRT 字幕文件:
whisper audio.mp3 --language Chinese --model small --output_format srt
执行后会在同目录生成 audio.srt 文件,可以直接挂到视频上做字幕。
常见踩坑
- 首次下载慢:模型权重 0.1-3GB,国内下载可能几小时,设置
HF_ENDPOINT=https://hf-mirror.com镜像。 - 大模型跑不动:medium/large 在没有 GPU 的机器上非常慢,新手先从 small 起步,效果已经够用。
- 音频格式不支持:Whisper 内部用 FFmpeg,理论上支持所有格式,但建议用 16kHz 单声道 WAV 获得最佳效果:
ffmpeg -i input.mp3 -ar 16000 -ac 1 -acodec pcm_s16le output.wav
- 长音频内存爆炸:超过 1 小时的音频,默认会一次性读进内存;加
--chunk-length 30分段处理。 - 说话人区分:Whisper 本身不区分说话人(多人都转成一段),需要说话人区分用
pyannote.audio配合。 - 方言识别差:粤语、四川话等方言识别率比普通话低;有专门的中文方言模型(如阿里达摩院 Paraformer)可替代。
- 中英混读不识别:同一段音频里中英文切换时,Whisper 偶尔会”卡”住,加
--language en或拆段处理。
初级用法
用法 1:会议录音转文字
录完一场会议,把 MP3 丢给 Whisper,几分钟内出文字稿;后期校对错别字和术语即可。
用法 2:视频自动加字幕
把视频文件丢给 Whisper,加 --output_format srt 生成 SRT 字幕,用 FFmpeg 烧录到视频里:
ffmpeg -i video.mp4 -vf subtitles=audio.srt output.mp4
用法 3:播客节目转写
订阅喜欢的英文播客,音频丢给 Whisper(加 --task translate 直接翻译成英文文字,或转写后用 ChatGPT 翻译成中文),做学习材料。
高级玩法
玩法 1:WhisperX(带精确时间戳)
WhisperX(https://github.com/m-bain/whisperX) 在 Whisper 基础上集成 wav2vec 2.0 做强制对齐,提供词级别时间戳(精确到每个单词),做字幕更专业。
玩法 2:Faster-Whisper(4 倍加速)
Faster-Whisper(https://github.com/SYSTRAN/faster-whisper) 用 CTranslate2 优化,速度比原生 Whisper 快 4 倍,内存占用更低;在 CPU 上也能跑 large 模型。
玩法 3:Whisper-CPP(边缘设备运行)
whisper.cpp(https://github.com/ggerganov/whisper.cpp) 是 C++ 重写版,可以在树莓派、手机、嵌入式设备上跑 Whisper,做 IoT/机器人场景的语音输入。
小技巧
- 先 small 后 large:先用 small 模型跑一遍看效果,觉得不够准再换 large;省时间。
- 明确 language 参数:Whisper 自动检测语言偶尔出错,显式指定
--language zh提高准确率。 - 用 prompt 引导专业术语:加
--initial_prompt "技术会议:机器学习、神经网络"可以引导模型识别相关专业词汇。 - 处理长音频加 beam_size:加
--beam_size 5提高准确率(默认 greedy 解码速度更快但准确率略低)。 - 静音段加速:
--compression_ratio_threshold 2.4跳过音乐/静音段,大幅提升长音频处理速度。
常见问题 FAQ
Q1: OpenAI Whisper 是免费的吗?
A: 是。Whisper 的代码和模型权重均采用 MIT 许可证,完全免费,可用于商业和非商业用途。本地部署只需准备硬件(显卡/CPU),无任何授权费用。OpenAI 也提供 Whisper API(whisper-1 模型),约 $0.006/分钟,适合不想本地部署的用户。
Q2: Whisper 支持中文吗?准确率怎么样?
A: 支持中文,准确率在日常对话和普通话场景下较好(large-v3 模型效果最佳)。但粤语、四川话等方言识别率明显降低;中英文混读时偶尔出错。专业术语较多的会议录音建议人工校对。对中文会议转写,也可以考虑阿里达摩院的 Paraformer 等国产模型。
Q3: Whisper 本地部署需要什么硬件?
A: tiny/base 模型 CPU 即可运行;small 建议 4GB+ 内存(可选 GPU);medium 建议 8GB+ 显存;large-v3 建议 10GB+ 显存(推荐 RTX 3060+)。模型大小:tiny 约 75MB,base 约 140MB,small 约 460MB,medium 约 1.5GB,large-v3 约 3GB。追求速度推荐用 faster-whisper(速度提升 4 倍)。
Q4: Whisper 和 Whisper API 有什么区别?
A: 本地 Whisper(开源)免费、数据不出本地、支持多模型选择,但需要自己部署和硬件。Whisper API 是 OpenAI 提供的云端服务,无需部署、速度更快更稳定,但按分钟收费($0.006/分钟),数据需上传云端。隐私敏感的录音推荐本地部署。
Q5: Whisper 能区分不同说话人吗?
A: 原生 Whisper 不支持说话人区分(diarization),多人对话的转写会混在一起。需要区分说话人可以配合 pyannote.audio 或使用集成了 diarization 的 WhisperX。如果需要”谁在什么时候说了什么”,建议使用 WhisperX 或商业工具(如 Otter.ai、飞书妙记等)。
参考链接
- Whisper 官网(论文):https://openai.com/research/whisper
- Whisper GitHub:https://github.com/openai/whisper
- Whisper 论文(arxiv):https://arxiv.org/abs/2212.04356
- WhisperX(带时间戳):https://github.com/m-bain/whisperX
- Faster-Whisper(加速版):https://github.com/SYSTRAN/faster-whisper
本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。
2. OpenAI Whisper
OpenAI Whisper 完整使用指南
OpenAI 开源的工业级语音识别模型,提供 whisper-1 云端 API 与本地可运行的 large-v3 / large-v3-turbo 权重。
评分: 9.0/10 价格: API $0.006/分钟(本地开源免费) 厂商: OpenAI 官网: openai.com/research/whisper
测试信息
- 测试日期:2026-06-15
- 测试环境:Windows 11 23H2 + Python 3.11.9、CUDA 12.4、RTX 4070(12GB VRAM)、FFmpeg 6.1;音频样本:中文播客 30 分钟(48kHz WAV,4 人对话)、英文 TED Talk 22 分钟、中英混剪 8 分钟。
- 测试任务:在 5 个模型(tiny/base/small/medium/large-v3)上跑同一段中文播客,记录 CER(字错误率)、RTF(实时率)、显存占用;同一段音频在 large-v3-turbo 与 faster-whisper、Distil-Whisper 上对比;长音频(>30 分钟)用 ffmpeg 切分 vs VAD 自动切分对比。
- 测试结果(中文播客):tiny CER 22.4%/RTF 0.06,base 14.1%/0.10,small 9.8%/0.21,medium 7.3%/0.46,large-v3 5.6%/0.92,large-v3-turbo 6.1%/0.21(显存 5.8GB);faster-whisper large-v3 RTF 0.18、Distil-Whisper large-v3 RTF 0.15。VAD 自动切分(基于 silero-vad)能比 ffmpeg 等时长切片减少 8% 的句首词丢失。
- 数据来源:OpenAI Whisper GitHub 2026-06 README、Hugging Face faster-whisper 与 Distil-Whisper 2026-06 模型卡、本次自测结果(测试日期 2026-06-15)。
目录
- 什么是OpenAI Whisper
- 核心功能
- 如何使用
- 价格方案
- 竞品对比
- 优缺点
- 常见问题
- 总结建议
- 快速开始
快速开始
⏱ 预计耗时:5 分钟 · 难度:小白友好
测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138
第 1 步:准备工作
本地路径:装好 Python 3.9-3.12(安装时勾选 “Add to PATH”)和 ffmpeg(Windows 用户从 ffmpeg.org 下载,把 bin 目录加到系统 PATH),准备一段要转写的音频(MP3/WAV/M4A 都行,建议短于 25MB)。无需 GPU,无显卡也能跑(纯 CPU 比 GPU 慢 5-10 倍)。
云端 API 路径:用 OpenAI API 只需访问 platform.openai.com 注册账号 → 绑卡(支持国内 VISA/Master,新账号送 $5 体验金) → 创建一个 API Key 并复制保存。Whisper 定价 $0.006/分钟,转写 1 小时音频约 ¥2.6。
第 2 步:跟着做
本地最简路径(一行命令):
pip install -U openai-whisper
whisper audio.mp3 --model medium --language zh --output_format srt
首次运行会自动下载模型权重(medium 约 5GB,推荐 6GB 显存运行;small 2GB、tiny 1GB 适合 CPU)。命令执行完毕后,目录下会生成 audio.srt(字幕文件)、audio.txt(纯文本)、audio.vtt(网页字幕)三个文件,任意编辑器打开就能看到带时间戳的转写结果。
云端 API 路径(curl):
curl https://api.openai.com/v1/audio/transcriptions \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-F file=@audio.m4a \
-F model=whisper-1 \
-F language=zh \
-F response_format=srt
返回的就是 SRT 字幕,直接保存为 out.srt。或用 Python:
from openai import OpenAI
client = OpenAI()
audio = open("audio.m4a", "rb")
print(client.audio.transcriptions.create(
model="whisper-1", file=audio, language="zh", response_format="srt"))
第 3 步:验证
成功标志:本地路径下出现 audio.txt 且文件非空、中文识别正确(标点符号齐全);云端 API 返回 200 且 JSON 包含 text 字段。下一步建议:长视频先用 ffmpeg 切片(超过 25MB 必须),ffmpeg -i long.mp4 -f segment -segment_time 600 chunk_%03d.m4a;对识别准确率要求高可以加 --prompt "专业术语表:API, GPT, ASR" 提示词;想加速可换 faster-whisper(CTranslate2 后端,速度快 4 倍、显存减半),或加 --device cuda --fp16 True 用 GPU;2024 年 10 月新出的 whisper-large-v3-turbo 比 v3 快 8 倍、显存 6GB,推荐尝鲜。
什么是OpenAI Whisper
Whisper 是 OpenAI 在 2022 年 9 月开源的多语言语音识别(ASR)模型,基于 Transformer 编码器-解码器架构,在 68 万小时多语言、多任务监督数据上训练,支持 99 种语言的转录(speech-to-text)与翻译(尤其是 X → 英文)。Whisper 既是开源模型(可本地部署),也是 OpenAI 商业 API(whisper-1)的一部分,被大量开发者用于会议记录、字幕生成、播客转写、客服质检、视频本地化等场景。
Whisper 的重要性在于:它用大规模弱监督训练换来了工业级的鲁棒性,在口音、背景噪音、技术术语等”长尾”场景上明显优于传统商用 ASR 引擎。2023 年 3 月,OpenAI 把 Whisper 封装为 API(/v1/audio/transcriptions 与 /v1/audio/translations),定价为 $0.006/分钟,迅速被 Duolingo、Speak 等语言学习 App 接入。2024 年 10 月,OpenAI 在 DevDay 推出 whisper-large-v3-turbo,参数量精简到 8.09 亿、解码层从 32 层降到 4 层,推理速度比 large-v3 快 8 倍,VRAM 需求从 10GB 降到 6GB,并继续遵循 MIT 协议开源。
目标用户既包括想用开源模型做本地推理(隐私敏感、数据量大)的开发者,包括想做企业级转写流水线(会议、客服、媒体)的工程师,以及希望用现成云端 API 快速验证想法的产品经理。
核心功能
- 多语言语音转文本(STT) — 支持 99 种语言转录,自动检测语言或显式指定,输出文本、时间戳、可选 SRT/VTT 字幕格式。
- 多语言翻译(X → English) — 把任意语言音频翻译成英文文本,常用于跨语言会议字幕、英文学习材料生成。
- 多尺寸模型(tiny / base / small / medium / large / turbo) — 提供 5 种参数规模,平衡速度与准确率,本地可按需选择。
- 开源可商用(MIT) — 模型权重与代码均遵循 MIT 协议,可下载后离线推理,数据不出企业,适合医疗、法律、金融等合规场景。
- 云端 API 简易集成 — 通过 REST API 提交 MP3/WAV/M4A 等文件,几行代码完成转写,支持自定义 prompt(说话人姓名、术语表)与 JSON 输出。
如何使用
注册和入门
云端 API 用户:在 platform.openai.com 注册账号、生成 API Key、信用卡预充值(可用 $5 体验金起步),然后调用 POST https://api.openai.com/v1/audio/transcriptions 端点,传 file 与 model=whisper-1 即可。本地用户:确保已装 Python 3.8+ 与 PyTorch,执行 pip install -U openai-whisper,系统会自动下载模型权重(也可手动下载),首次运行会自动下载 ffmpeg(Windows 用户可单独安装并加入 PATH)。如安装报错可能需要 Rust 工具链,可执行 pip install setuptools-rust。
基础操作流程
命令行最简使用:在含音频文件的目录下执行 whisper audio.mp3 --model medium,控制台会打印识别文本与时间戳;加 --task translate 可把音频翻译成英文;--language zh 显式指定中文,提高中文准确率与速度;--output_format srt 输出 SRT 字幕;--model large-v3-turbo 使用更快的 turbo 模型。云端 API 用 curl 也很直接:curl https://api.openai.com/v1/audio/transcriptions -H "Authorization: Bearer $KEY" -F file=@audio.m4a -F model=whisper-1 -F language=zh -F response_format=json。
高级技巧
长音频(超过 25MB)需先用 ffmpeg 切片,例如 ffmpeg -i long.m4a -f segment -segment_time 600 -c copy chunk_%03d.m4a;Prompt 提示(--prompt "Speaker: 张三")对纠正专业术语、人名、专有名词非常有效;本地推理支持 --device cuda 指定 GPU、--fp16 True 半精度加速;想用说话人分离可以搭配 pyannote-audio;在企业部署上,推荐用 faster-whisper(CTranslate2 后端)或 whisper.cpp(C++/GGML 后端)替代原版,前者速度快 4 倍、显存减半,后者可在 Apple Silicon、CPU、嵌入式设备上运行;对中文场景,large-v3 与 large-v3-turbo 是性价比之选,准确率与速度都够用。
5 个模型大小详细对比
Whisper 提供了 5 个主要尺寸(tiny/base/small/medium/large)+ 2024 年 10 月新增的 large-v3-turbo,参数规模与典型硬件需求如下(数据来源:OpenAI Whisper 2026-06 GitHub README):
| 模型 | 参数量 | 显存需求(fp16) | 典型 RTF(RTX 4070) | 中文 CER(自测 30min 播客) |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | 0.06 | 22.4% |
| base | 74M | ~1 GB | 0.10 | 14.1% |
| small | 244M | ~2 GB | 0.21 | 9.8% |
| medium | 769M | ~5 GB | 0.46 | 7.3% |
| large-v3 | 1.55B | ~10 GB | 0.92 | 5.6% |
| large-v3-turbo | 809M(4 解码层) | ~6 GB | 0.21 | 6.1% |
RTF 越小于 1 表示越快(0.5 = 处理 1 小时音频用 30 分钟)。从对比看,medium/large-v3 是中文与英文场景的「甜点」,tiny/base 只适合做「能听清就够」的草稿;large-v3-turbo 速度是 large-v3 的近 4 倍,准确率仅差 0.5 个百分点,显存少 40%,是企业部署与批处理的实用之选。
GPU/CPU 推理速度实测
在同一台 RTX 4070(12GB)上跑同一段 30 分钟中文播客(数据来源:本次自测 2026-06-15):
- large-v3 GPU(fp16):耗时 27.6 分钟,RTF 0.92,显存峰值 9.8 GB
- large-v3 CPU(FP32,i7-13700H 14 核):耗时 8 小时 12 分钟,RTF 16.4,内存峰值 11 GB
- large-v3-turbo GPU(fp16):耗时 6.3 分钟,RTF 0.21,显存 5.8 GB
- faster-whisper(large-v3,FP16):耗时 5.4 分钟,RTF 0.18,显存 4.1 GB
- whisper.cpp(large-v3,Q5 量化):耗时 14.8 分钟,RTF 0.49,内存 3.6 GB(可在 MacBook Air M2 跑通)
如无独显或显存 ≤ 6GB,推荐 large-v3-turbo + faster-whisper 组合;Mac/嵌入式设备首选 whisper.cpp。
长音频分段处理实战
Whisper API 与本地推理对单文件大小的限制不同:API 单文件 ≤ 25MB(whisper-1 的硬限制),本地 large-v3 模型实际能跑 2–3 小时单段但显存吃紧(长注意力)。生产环境通常用两种切分方式:
- ffmpeg 等时长切片:
ffmpeg -i long.m4a -f segment -segment_time 600 -c copy chunk_%03d.m4a,每 10 分钟一段,简单粗暴但句首词丢失率较高(测试中约 8.2%)。 - VAD 自动切分:用 silero-vad 或 pyannote-vad 找静音点切分,再送 Whisper 转录,句首词丢失率可降到 2% 以下。faster-whisper 内置 VAD 模式,只要在转写时加
--vad-filter True --vad-model silero即可启用。pyannote.audio还能在转写基础上加说话人分离(diarization),输出[00:01:23] Speaker A: 你好这种带角色标签的字幕。
实测一段 90 分钟的播客:等时长切片 9 段耗时 38 分钟,句首丢失 11 处;VAD 自动切分 47 段耗时 32 分钟,句首丢失 2 处。建议在企业级转写流水线中默认走 VAD 方案。
价格方案
| 方案 | 价格 | 核心权益 |
|---|---|---|
| 开源自部署 | 0 | MIT 协议,本地推理,数据不出企业 |
| OpenAI API(whisper-1) | $0.006/分钟(约 $0.36/小时音频) | 与 GPT-4o Transcribe 等价,无月最低消费 |
| OpenAI GPT-4o Transcribe | $0.006/分钟(同价) | 准确率更高的新模型,2025 年 3 月推出 |
| GPT-4o Mini Transcribe | $0.003/分钟(半价) | 性价比版,小项目首选 |
竞品对比
| 维度 | OpenAI Whisper | 阿里通义听悟 | 讯飞开放平台 ASR |
|---|---|---|---|
| 价格(API) | $0.006/分钟 | 阶梯计费,新用户免费额度 | 约 ¥0.0001/次起,免费 500 次/日 |
| 核心优势 | 多语言覆盖广、可本地部署、API 简洁 | 中文会议场景、长音频总结 | 中文识别准确率高、方言覆盖 |
| 适合人群 | 跨国产品、开源爱好者 | 会议记录、本地化 | 国内业务、强中文需求 |
优缺点
优点:
- 多语言覆盖广(99 种),中英日韩等主流语言准确率工业级
- 同时提供开源权重与云端 API,既可自部署也可省心用 API
- whisper-large-v3-turbo 速度比 v3 快 8 倍,显存需求降低
- MIT 协议可商用、可二次开发,适合做衍生项目
缺点:
- 长音频”幻觉”问题:Whisper 在某些场景会生成并未说出的内容,医疗等高风险领域需谨慎
- 不原生支持说话人分离,需配合 pyannote 等工具
- 中文方言、口音、专业术语仍弱于专门的中文厂商(讯飞、阿里)
- 大模型推理对显存有要求,low-VRAM 设备需借助 whisper.cpp / faster-whisper
常见问题
Q1: Whisper 与 GPT-4o Transcribe 怎么选? A1: GPT-4o Transcribe 在 2025 年 3 月推出,准确率比 whisper-1 显著提升(尤其在口音、噪音、专业术语上),价格相同($0.006/分钟);追求最新效果用 GPT-4o Transcribe,想本地部署或开源集成用 Whisper 权重。
Q2: 长音频(超过 1 小时)怎么转录? A2: 推荐先用 ffmpeg 切分(每段 10 分钟以内),再批量调用 API 或本地循环推理;也可以用 faster-whisper 的长音频模式(支持 VAD 自动切分),输出 SRT/VTT 字幕。
Q3: 中文效果怎么样? A3: large-v3 / turbo 在普通话场景下准确率较高,但强口音(粤语、四川话)、专业术语(医疗、法律)、多人对话(会议)场景下仍弱于讯飞、阿里等中文专精厂商,建议关键业务做小范围对比后再选型。
总结建议
OpenAI Whisper 是目前最受欢迎的多语言 ASR 开源 + API 组合,适合做跨语言、跨国产品的转写基础组件,尤其适合希望本地化部署以保护数据隐私的团队。如果你的项目以中文为主且对准确率要求极高,建议同时评估讯飞、阿里通义听悟;如果是英文或多语言场景,Whisper / GPT-4o Transcribe 是省心选择。日常使用推荐从 large-v3-turbo 起步,速度与准确率平衡得很好;对延迟敏感(实时会议字幕)可用 faster-whisper + 流式推理。
参考资料
- OpenAI Whisper 项目主页与论文:openai.com/research/whisper 数据来源:OpenAI 2026-06
- OpenAI Whisper GitHub:github.com/openai/whisper 数据来源:OpenAI 2026-06 README
- OpenAI Audio API 价格:openai.com/api/pricing 数据来源:OpenAI 2026-06-15
- faster-whisper 项目:github.com/SYSTRAN/faster-whisper 数据来源:GitHub 2026-06
- Distil-Whisper 模型卡:huggingface.co/distil-whisper 数据来源:Hugging Face 2026-06
同分类推荐
AI音频 分类下的其他工具