Transkribiere Audio und Video, auf deinem Computer.

Ziehe eine Aufnahme hinein, wähle eine Sprache, erhalte sauberen Text oder Untertitel. Nichts wird hochgeladen — das Modell läuft lokal.

Was es anders macht

100% lokale Verarbeitung

Deine Dateien verlassen nie deinen Rechner. Kein Upload, keine Cloud, keine Warteschlange. Funktioniert offline nach dem ersten Modell-Download.

99 Sprachen

OpenAI Whisper unterstützt fast hundert Sprachen mit guter Genauigkeit. Automatische Erkennung ist Standard; wähle eine Sprache, wenn du sie erzwingen willst.

Optionale GPU-Beschleunigung

Eine Checkbox verlagert die Inferenz auf deine GPU via Vulkan — NVIDIA, AMD, Intel — und fällt still auf die CPU zurück, falls der Treiber nicht mitspielt.

TXT- und SRT-Ausgabe

Speichere eine saubere Texttranskription, fertige Untertitel, oder beides in einem Durchlauf — die aufwändige Inferenz läuft nur einmal.

Alle gängigen Audio-/Videoformate

WhatsApp-Sprachnachrichten (.opus, .ogg), OBS-Aufnahmen (.mkv), YouTube-Downloads (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — ffmpeg bewältigt alles.

Minimale, anonyme Telemetrie

Weder dein Audio noch deine Transkripte verlassen deinen Rechner. Die App sendet einen einzigen Ping pro Installation — eine zufällige ID, die App-Version und die Systemsprache — damit klar wird, auf welche Länder und Sprachen zu setzen ist. Mehr nicht. Die verwendeten Komponenten (FFmpeg, whisper.cpp, Whisper.net, .NET) sind Open Source und unabhängig überprüfbar.

So funktioniert es

  1. 1. Datei wählen

    Wähle eine beliebige Audio- oder Videodatei auf der Festplatte und den Ordner, in dem das Transkript gespeichert werden soll.

  2. 2. Sprache und Modell wählen

    Behalte die Auto-Erkennung oder lege eine Sprache fest. Wähle die Whisper-Modellgröße (Tiny für Tempo, Medium oder LargeV3 für lange Aufnahmen).

  3. 3. Transkribieren

    Die App extrahiert eine saubere Audiospur, führt Whisper aus und schreibt .txt und/oder .srt in den gewählten Ordner. Das war's.

Hinter den Kulissen

Entwickelt mit .NET 8 unter Windows. Nutzt ffmpeg (LGPL) für die Format-Dekodierung und Whisper.net (MIT), das whisper.cpp (MIT) für die Inferenz umschließt. Vulkan-Runtime für GPU, CPU mit AVX-Fallback für alles andere. Modelldateien werden einmal von Hugging Face (ggerganov/whisper.cpp) heruntergeladen und in %LOCALAPPDATA% zwischengespeichert.

Modellgrößen

  • Tiny · 77 MB · am schnellsten · schnelle Entwürfe
  • Base · 142 MB · kleiner Schritt weiter
  • Small · 466 MB · empfohlene Balance
  • Medium · 1,5 GB · gute Genauigkeit bei langen Dateien
  • Large-v3 · 3,1 GB · beste Qualität, am langsamsten

Häufige Fragen

Ist es kostenlos?

Ja. Die App ist kostenlos. Der Microsoft Store erhebt in manchen Regionen eventuell eine kleine einmalige Gebühr — sie deckt den Vertrieb ab, nicht die Software.

Funktioniert es offline?

Ja, ab dem zweiten Start. Beim ersten Einsatz eines Whisper-Modells lädt die App es von Hugging Face. Danach läuft alles lokal.

Wie genau ist es?

Kommt auf Modellgröße und Audioqualität an. Bei klarer Sprache in einer unterstützten Sprache kommen Medium und LargeV3 nahe an professionelle Dienste heran. Bei lauten Handyaufnahmen mit gemischten Sprachen sind es eher Rohentwürfe.

Siehst du meine Dateien?

Nein. Die App hat keinen Server. Dateien werden vollständig auf deinem Rechner dekodiert, transkribiert und gespeichert. Die einzige externe Verbindung ist der Download des Whisper-Modells beim ersten Einsatz einer Größe.

App herunterladen

Verfügbar im Microsoft Store für Windows 10 und 11. Der Store-Build ist autark — keine .NET-Installation nötig.

Im Microsoft Store holen