音声と動画を、あなたのパソコンで文字起こし。

録音をドロップし、言語を選ぶだけで、クリーンなテキストや字幕が手に入ります。ネットには何も送信されません——モデルはローカルで動きます。

Microsoft Store で入手

特長

100% ローカル処理

ファイルは端末の外に出ません。アップロードなし、クラウドなし、順番待ちなし。最初のモデルダウンロード後はオフラインでも動作します。

99 言語対応

OpenAI Whisper は約 100 の言語に高い精度で対応しています。既定は自動検出。特定の言語を指定することもできます。

GPU アクセラレーション（任意）

チェックボックス一つで推論を Vulkan 経由で GPU に切り替えできます——NVIDIA、AMD、Intel 対応——ドライバが対応しない場合は静かに CPU にフォールバックします。

TXT と SRT 出力

クリーンなテキスト、そのまま使える字幕、あるいはその両方を一度の実行で保存できます——重い推論は一度きりです。

あらゆる一般的な音声・動画形式

WhatsApp の音声メモ（.opus, .ogg）、OBS の録画（.mkv）、YouTube のダウンロード（.webm）、MP3、MP4、MOV、WAV、FLAC、M4A——ffmpeg がすべて処理します。

最小限かつ匿名なテレメトリ

音声や文字起こしの内容は端末の外に出ません。アプリはインストールごとに一度だけ、ランダム ID、アプリのバージョン、システム言語を送信します——どの国や言語に注力すべきかを把握するためです。それだけです。基盤コンポーネント（FFmpeg、whisper.cpp、Whisper.net、.NET）はオープンソースで独立に監査可能です。

使い方

1. ファイルを選ぶ

ディスク上の任意の音声・動画ファイルと、文字起こしの保存先フォルダを選びます。
2. 言語とモデルを選ぶ

自動検出のままでも、特定の言語に固定してもかまいません。Whisper のモデルサイズを選択します（速さ重視なら Tiny、長時間の録音なら Medium または LargeV3）。
3. 文字起こし

アプリがクリーンな音声トラックを抽出し、Whisper を実行し、選択したフォルダに .txt や .srt を書き出します。それだけです。

技術的な中身

Windows 上の .NET 8 で構築。形式のデコードに ffmpeg（LGPL）、推論に whisper.cpp（MIT）をラップした Whisper.net（MIT）を使用。GPU には Vulkan ランタイム、それ以外は AVX フォールバックの CPU。モデルファイルは Hugging Face（ggerganov/whisper.cpp）から一度ダウンロードされ、%LOCALAPPDATA% 以下にキャッシュされます。

モデルサイズ

Tiny · 77 MB · 最速 · 下書き用
Base · 142 MB · 少し精度アップ
Small · 466 MB · 推奨バランス
Medium · 1.5 GB · 長いファイルでも高い精度
Large-v3 · 3.1 GB · 最高品質、最も遅い

よくある質問

無料ですか？

はい。アプリは無料です。Microsoft Store が一部地域で少額の一回払い料金を請求する場合があります——それは配信にかかる料金であり、ソフト自体の代金ではありません。

オフラインで動きますか？

2 回目以降は動きます。Whisper のモデルを初めて使うときだけ Hugging Face からダウンロードします。それ以降はすべてローカルで完結します。

どのくらい正確ですか？

モデルサイズと音声の質に依存します。対応言語のクリアな音声であれば、Medium と LargeV3 は業務用の文字起こしサービスに近い精度です。ノイズの多い電話録音や多言語混在では、荒い下書き程度と考えてください。

あなたが私のファイルを見ますか？

いいえ。アプリにはサーバーがありません。ファイルのデコード、文字起こし、保存はすべて端末上で完結します。外部への接続は、あるサイズを初めて使うときに Whisper のモデルをダウンロードするときだけです。

アプリを入手

Microsoft Store で Windows 10 と 11 向けに配布しています。Store 版は自己完結型——別途 .NET のインストールは不要です。