Transkripsikan audio dan video di komputer Anda.

Seret sebuah rekaman, pilih bahasa, dapatkan teks yang bersih atau subtitel. Tidak ada yang dikirim ke internet — model berjalan secara lokal.

Apa yang membuatnya berbeda

Pemrosesan 100% lokal

Berkas Anda tidak pernah meninggalkan komputer Anda. Tanpa unggah, tanpa cloud, tanpa antrean. Dapat bekerja offline setelah unduhan model pertama.

99 bahasa

OpenAI Whisper mendukung hampir seratus bahasa dengan akurasi tinggi. Deteksi otomatis adalah default; pilih bahasa tertentu jika ingin memaksanya.

Akselerasi GPU opsional

Satu centang saja dan inferensi berpindah ke GPU Anda via Vulkan — NVIDIA, AMD, Intel — dan diam-diam kembali ke CPU bila driver tidak mendukung.

Keluaran TXT dan SRT

Simpan teks bersih, subtitel siap pakai, atau keduanya dalam satu proses — pekerjaan berat hanya terjadi sekali.

Setiap format audio/video yang umum

Pesan suara WhatsApp (.opus, .ogg), rekaman OBS (.mkv), unduhan YouTube (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — ffmpeg menangani semuanya.

Telemetri minimal dan anonim

Audio dan transkrip Anda tidak pernah meninggalkan komputer Anda. Aplikasi mengirim satu ping per pemasangan — ID acak, versi aplikasi, dan bahasa sistem — agar dapat terlihat negara dan bahasa mana yang perlu difokuskan. Hanya itu. Komponen yang digunakan (FFmpeg, whisper.cpp, Whisper.net, .NET) adalah open source dan dapat diaudit secara independen.

Cara kerjanya

  1. 1. Pilih berkas

    Pilih berkas audio atau video mana pun di disk Anda dan folder tempat transkrip akan disimpan.

  2. 2. Pilih bahasa dan model

    Biarkan deteksi otomatis atau kunci ke bahasa tertentu. Pilih ukuran model Whisper (Tiny untuk kecepatan, Medium atau LargeV3 untuk rekaman panjang).

  3. 3. Transkripsikan

    Aplikasi mengekstrak trek audio bersih, menjalankan Whisper, dan menulis .txt dan/atau .srt ke folder yang Anda pilih. Hanya itu.

Di balik layar

Dibuat dengan .NET 8 di Windows. Menggunakan ffmpeg (LGPL) untuk mendekode format dan Whisper.net (MIT) yang membungkus whisper.cpp (MIT) untuk inferensi. Vulkan runtime untuk GPU, CPU dengan fallback AVX untuk selebihnya. Berkas model diunduh sekali dari Hugging Face (ggerganov/whisper.cpp) dan di-cache di %LOCALAPPDATA%.

Ukuran model

  • Tiny · 77 MB · tercepat · draf cepat
  • Base · 142 MB · langkah kecil ke atas
  • Small · 466 MB · keseimbangan yang direkomendasikan
  • Medium · 1,5 GB · akurasi kuat pada berkas panjang
  • Large-v3 · 3,1 GB · kualitas terbaik, paling lambat

Pertanyaan umum

Apakah gratis?

Ya. Aplikasi ini gratis. Microsoft Store dapat mengenakan biaya kecil sekali bayar di beberapa wilayah — biaya itu untuk distribusi, bukan untuk perangkat lunaknya.

Apakah bisa offline?

Ya, setelah dijalankan pertama kali. Pertama kali Anda menggunakan model Whisper, aplikasi mengunduhnya dari Hugging Face. Setelah itu, semuanya lokal.

Seberapa akurat?

Tergantung pada ukuran model dan kualitas audio. Untuk ucapan yang bersih dalam bahasa yang didukung, Medium dan LargeV3 mendekati layanan transkripsi profesional. Untuk rekaman telepon yang berisik dan bahasa campuran, harapkan draf kasar.

Apakah Anda melihat berkas saya?

Tidak. Aplikasi ini tidak memiliki server. Berkas didekode, ditranskripsikan, dan disimpan seluruhnya di komputer Anda. Satu-satunya koneksi eksternal adalah mengunduh model Whisper saat pertama kali Anda menggunakan ukuran tertentu.

Dapatkan aplikasinya

Tersedia di Microsoft Store untuk Windows 10 dan 11. Build Store bersifat mandiri — tidak perlu memasang runtime .NET.

Dapatkan di Microsoft Store