在您的电脑上转录音视频。

拖入一段录音,选择语言,获得干净的文本或字幕。没有任何内容被上传到网络——模型在本地运行。

与众不同之处

100% 本地处理

您的文件永远不会离开您的电脑。无需上传、无需云端、无需排队等待。首次下载模型后即可离线使用。

支持 99 种语言

OpenAI Whisper 以较高准确度支持近一百种语言。默认自动检测;如果想强制指定某种语言也可以手动选择。

可选的 GPU 加速

一个复选框即可通过 Vulkan 将推理切换到您的 GPU——支持 NVIDIA、AMD、Intel——驱动不配合时会静默回退到 CPU。

TXT 和 SRT 输出

一次运行即可保存干净的文本、可直接使用的字幕,或两者兼得——繁重的推理只会执行一次。

所有常见音视频格式

WhatsApp 语音消息(.opus、.ogg)、OBS 录制(.mkv)、YouTube 下载(.webm)、MP3、MP4、MOV、WAV、FLAC、M4A——ffmpeg 全部支持。

最少且匿名的遥测

您的音频和转录文本永远不会离开您的电脑。应用每次安装只发送一次信号——一个随机 ID、应用版本和系统语言——以便了解应当关注哪些国家和语言。仅此而已。底层组件(FFmpeg、whisper.cpp、Whisper.net、.NET)均为开源,可独立审计。

工作原理

  1. 1. 选择文件

    选择磁盘上任意音频或视频文件,以及转录结果的保存文件夹。

  2. 2. 选择语言和模型

    保持自动检测,或锁定某个特定语言。选择 Whisper 模型大小(Tiny 追求速度,Medium 或 LargeV3 适合长录音)。

  3. 3. 开始转录

    应用会提取干净的音轨、运行 Whisper,并将 .txt 和/或 .srt 文件写入您选择的文件夹。就这么简单。

技术细节

在 Windows 上使用 .NET 8 开发。使用 ffmpeg(LGPL)解码格式,以 Whisper.net(MIT)封装 whisper.cpp(MIT)进行推理。GPU 使用 Vulkan 运行时,其他情况则由 AVX 回退的 CPU 处理。模型文件从 Hugging Face(ggerganov/whisper.cpp)下载一次后缓存在 %LOCALAPPDATA% 下。

模型大小

  • Tiny · 77 MB · 最快 · 适合快速草稿
  • Base · 142 MB · 小幅提升
  • Small · 466 MB · 推荐的平衡选择
  • Medium · 1.5 GB · 长文件下保持高准确度
  • Large-v3 · 3.1 GB · 最高质量,速度最慢

常见问题

免费吗?

是的,应用是免费的。Microsoft Store 在某些地区可能收取少量一次性费用——那是分发费用,不是软件费用。

可以离线使用吗?

首次运行之后可以。第一次使用某个 Whisper 模型时,应用会从 Hugging Face 下载它。之后一切都在本地运行。

准确度怎么样?

取决于模型大小和音频质量。对于支持的语言中清晰的语音,Medium 和 LargeV3 接近专业转录服务的水平。对于嘈杂的手机录音或多语言混杂的场景,请预期得到较为粗糙的草稿。

你们看得到我的文件吗?

看不到。应用没有服务器。文件完全在您的电脑上解码、转录和保存。唯一的外部连接发生在您第一次使用某个尺寸时下载 Whisper 模型。

下载应用

可在 Microsoft Store 下载,支持 Windows 10 和 11。Store 版本为自包含安装——无需单独安装 .NET 运行时。

在 Microsoft Store 获取