音声と動画を、あなたのパソコンで文字起こし。

録音をドロップし、言語を選ぶだけで、クリーンなテキストや字幕が手に入ります。ネットには何も送信されません——モデルはローカルで動きます。

特長

100% ローカル処理

ファイルは端末の外に出ません。アップロードなし、クラウドなし、順番待ちなし。最初のモデルダウンロード後はオフラインでも動作します。

99 言語対応

OpenAI Whisper は約 100 の言語に高い精度で対応しています。既定は自動検出。特定の言語を指定することもできます。

GPU アクセラレーション(任意)

チェックボックス一つで推論を Vulkan 経由で GPU に切り替えできます——NVIDIA、AMD、Intel 対応——ドライバが対応しない場合は静かに CPU にフォールバックします。

TXT と SRT 出力

クリーンなテキスト、そのまま使える字幕、あるいはその両方を一度の実行で保存できます——重い推論は一度きりです。

あらゆる一般的な音声・動画形式

WhatsApp の音声メモ(.opus, .ogg)、OBS の録画(.mkv)、YouTube のダウンロード(.webm)、MP3、MP4、MOV、WAV、FLAC、M4A——ffmpeg がすべて処理します。

最小限かつ匿名なテレメトリ

音声や文字起こしの内容は端末の外に出ません。アプリはインストールごとに一度だけ、ランダム ID、アプリのバージョン、システム言語を送信します——どの国や言語に注力すべきかを把握するためです。それだけです。基盤コンポーネント(FFmpeg、whisper.cpp、Whisper.net、.NET)はオープンソースで独立に監査可能です。

使い方

  1. 1. ファイルを選ぶ

    ディスク上の任意の音声・動画ファイルと、文字起こしの保存先フォルダを選びます。

  2. 2. 言語とモデルを選ぶ

    自動検出のままでも、特定の言語に固定してもかまいません。Whisper のモデルサイズを選択します(速さ重視なら Tiny、長時間の録音なら Medium または LargeV3)。

  3. 3. 文字起こし

    アプリがクリーンな音声トラックを抽出し、Whisper を実行し、選択したフォルダに .txt や .srt を書き出します。それだけです。

技術的な中身

Windows 上の .NET 8 で構築。形式のデコードに ffmpeg(LGPL)、推論に whisper.cpp(MIT)をラップした Whisper.net(MIT)を使用。GPU には Vulkan ランタイム、それ以外は AVX フォールバックの CPU。モデルファイルは Hugging Face(ggerganov/whisper.cpp)から一度ダウンロードされ、%LOCALAPPDATA% 以下にキャッシュされます。

モデルサイズ

  • Tiny · 77 MB · 最速 · 下書き用
  • Base · 142 MB · 少し精度アップ
  • Small · 466 MB · 推奨バランス
  • Medium · 1.5 GB · 長いファイルでも高い精度
  • Large-v3 · 3.1 GB · 最高品質、最も遅い

よくある質問

無料ですか?

はい。アプリは無料です。Microsoft Store が一部地域で少額の一回払い料金を請求する場合があります——それは配信にかかる料金であり、ソフト自体の代金ではありません。

オフラインで動きますか?

2 回目以降は動きます。Whisper のモデルを初めて使うときだけ Hugging Face からダウンロードします。それ以降はすべてローカルで完結します。

どのくらい正確ですか?

モデルサイズと音声の質に依存します。対応言語のクリアな音声であれば、Medium と LargeV3 は業務用の文字起こしサービスに近い精度です。ノイズの多い電話録音や多言語混在では、荒い下書き程度と考えてください。

あなたが私のファイルを見ますか?

いいえ。アプリにはサーバーがありません。ファイルのデコード、文字起こし、保存はすべて端末上で完結します。外部への接続は、あるサイズを初めて使うときに Whisper のモデルをダウンロードするときだけです。

アプリを入手

Microsoft Store で Windows 10 と 11 向けに配布しています。Store 版は自己完結型——別途 .NET のインストールは不要です。

Microsoft Store で入手