在您的电脑上转录音视频。

拖入一段录音，选择语言，获得干净的文本或字幕。没有任何内容被上传到网络——模型在本地运行。

在 Microsoft Store 获取

与众不同之处

100% 本地处理

您的文件永远不会离开您的电脑。无需上传、无需云端、无需排队等待。首次下载模型后即可离线使用。

支持 99 种语言

OpenAI Whisper 以较高准确度支持近一百种语言。默认自动检测；如果想强制指定某种语言也可以手动选择。

可选的 GPU 加速

一个复选框即可通过 Vulkan 将推理切换到您的 GPU——支持 NVIDIA、AMD、Intel——驱动不配合时会静默回退到 CPU。

TXT 和 SRT 输出

一次运行即可保存干净的文本、可直接使用的字幕，或两者兼得——繁重的推理只会执行一次。

所有常见音视频格式

WhatsApp 语音消息（.opus、.ogg）、OBS 录制（.mkv）、YouTube 下载（.webm）、MP3、MP4、MOV、WAV、FLAC、M4A——ffmpeg 全部支持。

最少且匿名的遥测

您的音频和转录文本永远不会离开您的电脑。应用每次安装只发送一次信号——一个随机 ID、应用版本和系统语言——以便了解应当关注哪些国家和语言。仅此而已。底层组件（FFmpeg、whisper.cpp、Whisper.net、.NET）均为开源，可独立审计。

工作原理

1. 选择文件

选择磁盘上任意音频或视频文件，以及转录结果的保存文件夹。
2. 选择语言和模型

保持自动检测，或锁定某个特定语言。选择 Whisper 模型大小（Tiny 追求速度，Medium 或 LargeV3 适合长录音）。
3. 开始转录

应用会提取干净的音轨、运行 Whisper，并将 .txt 和/或 .srt 文件写入您选择的文件夹。就这么简单。

技术细节

在 Windows 上使用 .NET 8 开发。使用 ffmpeg（LGPL）解码格式，以 Whisper.net（MIT）封装 whisper.cpp（MIT）进行推理。GPU 使用 Vulkan 运行时，其他情况则由 AVX 回退的 CPU 处理。模型文件从 Hugging Face（ggerganov/whisper.cpp）下载一次后缓存在 %LOCALAPPDATA% 下。

模型大小

Tiny · 77 MB · 最快 · 适合快速草稿
Base · 142 MB · 小幅提升
Small · 466 MB · 推荐的平衡选择
Medium · 1.5 GB · 长文件下保持高准确度
Large-v3 · 3.1 GB · 最高质量，速度最慢

常见问题

免费吗？

是的，应用是免费的。Microsoft Store 在某些地区可能收取少量一次性费用——那是分发费用，不是软件费用。

可以离线使用吗？

首次运行之后可以。第一次使用某个 Whisper 模型时，应用会从 Hugging Face 下载它。之后一切都在本地运行。

准确度怎么样？

取决于模型大小和音频质量。对于支持的语言中清晰的语音，Medium 和 LargeV3 接近专业转录服务的水平。对于嘈杂的手机录音或多语言混杂的场景，请预期得到较为粗糙的草稿。

你们看得到我的文件吗？

看不到。应用没有服务器。文件完全在您的电脑上解码、转录和保存。唯一的外部连接发生在您第一次使用某个尺寸时下载 Whisper 模型。

下载应用

可在 Microsoft Store 下载，支持 Windows 10 和 11。Store 版本为自包含安装——无需单独安装 .NET 运行时。