Transkrybuj audio i wideo na swoim komputerze.

Przeciągnij nagranie, wybierz język, otrzymaj czysty tekst lub napisy. Nic nie trafia do internetu — model działa lokalnie.

Co robi różnicę

Przetwarzanie w 100% lokalne

Twoje pliki nigdy nie opuszczają twojego komputera. Bez wysyłania, bez chmury, bez czekania w kolejce. Działa offline po pierwszym pobraniu modelu.

99 języków

OpenAI Whisper obsługuje niemal sto języków z dobrą dokładnością. Domyślnie automatyczne wykrywanie; wybierz konkretny język, jeśli chcesz go wymusić.

Opcjonalne przyspieszenie GPU

Jeden checkbox przełącza obliczenia na twój GPU przez Vulkan — NVIDIA, AMD, Intel — i po cichu wraca do CPU, jeśli sterownik nie współpracuje.

Wyjście TXT i SRT

Zapisz czysty tekst, gotowe do użycia napisy albo jedno i drugie w jednym uruchomieniu — ciężkie obliczenia wykonują się tylko raz.

Każdy popularny format audio/wideo

Wiadomości głosowe WhatsApp (.opus, .ogg), nagrania OBS (.mkv), pobrania z YouTube (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — ffmpeg obsługuje wszystkie.

Minimalna, anonimowa telemetria

Twój dźwięk i transkrypcje nigdy nie opuszczają twojego komputera. Aplikacja wysyła jedno pingnięcie na instalację — losowe ID, wersję aplikacji i język systemu — żeby dało się zobaczyć, na jakie kraje i języki warto się skupić. To wszystko. Używane komponenty (FFmpeg, whisper.cpp, Whisper.net, .NET) są open source i można je niezależnie zweryfikować.

Jak to działa

  1. 1. Wybierz plik

    Wybierz dowolny plik audio lub wideo z dysku oraz folder, w którym ma zostać zapisana transkrypcja.

  2. 2. Wybierz język i model

    Zostaw automatyczne wykrywanie albo zablokuj konkretny język. Wybierz rozmiar modelu Whisper (Tiny dla szybkości, Medium lub LargeV3 dla długich nagrań).

  3. 3. Transkrybuj

    Aplikacja wyodrębnia czystą ścieżkę dźwiękową, uruchamia Whisper i zapisuje .txt i/lub .srt w wybranym przez ciebie folderze. To wszystko.

Co pod maską

Zbudowane w .NET 8 na Windows. Używa ffmpeg (LGPL) do dekodowania formatów oraz Whisper.net (MIT), który opakowuje whisper.cpp (MIT), do inferencji. Vulkan runtime dla GPU, CPU z fallbackiem AVX dla reszty. Pliki modeli są pobierane raz z Hugging Face (ggerganov/whisper.cpp) i cache’owane w %LOCALAPPDATA%.

Rozmiary modeli

  • Tiny · 77 MB · najszybszy · szybkie szkice
  • Base · 142 MB · mały krok dalej
  • Small · 466 MB · zalecany balans
  • Medium · 1,5 GB · dobra dokładność na długich plikach
  • Large-v3 · 3,1 GB · najlepsza jakość, najwolniejszy

Częste pytania

Czy to darmowe?

Tak. Aplikacja jest darmowa. Microsoft Store może w niektórych regionach pobrać małą jednorazową opłatę — to koszt dystrybucji, nie samego oprogramowania.

Czy działa offline?

Tak, od drugiego uruchomienia. Gdy pierwszy raz używasz modelu Whisper, aplikacja pobiera go z Hugging Face. Potem wszystko dzieje się lokalnie.

Jak dokładne?

Zależy od rozmiaru modelu i jakości dźwięku. Dla czystej mowy w obsługiwanym języku Medium i LargeV3 są blisko profesjonalnych usług transkrypcji. Dla głośnych nagrań z telefonu i wielu mieszanych języków spodziewaj się szkicu.

Czy widzicie moje pliki?

Nie. Aplikacja nie ma serwera. Pliki są dekodowane, transkrybowane i zapisywane w całości na twoim komputerze. Jedyne zewnętrzne połączenie to pobranie modelu Whisper przy pierwszym użyciu danego rozmiaru.

Pobierz aplikację

Dostępna w Microsoft Store dla Windows 10 i 11. Wersja ze Store jest samodzielna — nie trzeba instalować runtime’u .NET.

Pobierz z Microsoft Store