Transkrybuj audio i wideo na swoim komputerze.

Przeciągnij nagranie, wybierz język, otrzymaj czysty tekst lub napisy. Nic nie trafia do internetu — model działa lokalnie.

Pobierz z Microsoft Store

Co robi różnicę

Przetwarzanie w 100% lokalne

Twoje pliki nigdy nie opuszczają twojego komputera. Bez wysyłania, bez chmury, bez czekania w kolejce. Działa offline po pierwszym pobraniu modelu.

99 języków

OpenAI Whisper obsługuje niemal sto języków z dobrą dokładnością. Domyślnie automatyczne wykrywanie; wybierz konkretny język, jeśli chcesz go wymusić.

Opcjonalne przyspieszenie GPU

Jeden checkbox przełącza obliczenia na twój GPU przez Vulkan — NVIDIA, AMD, Intel — i po cichu wraca do CPU, jeśli sterownik nie współpracuje.

Wyjście TXT i SRT

Zapisz czysty tekst, gotowe do użycia napisy albo jedno i drugie w jednym uruchomieniu — ciężkie obliczenia wykonują się tylko raz.

Każdy popularny format audio/wideo

Wiadomości głosowe WhatsApp (.opus, .ogg), nagrania OBS (.mkv), pobrania z YouTube (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — ffmpeg obsługuje wszystkie.

Minimalna, anonimowa telemetria

Twój dźwięk i transkrypcje nigdy nie opuszczają twojego komputera. Aplikacja wysyła jedno pingnięcie na instalację — losowe ID, wersję aplikacji i język systemu — żeby dało się zobaczyć, na jakie kraje i języki warto się skupić. To wszystko. Używane komponenty (FFmpeg, whisper.cpp, Whisper.net, .NET) są open source i można je niezależnie zweryfikować.

Jak to działa

1. Wybierz plik

Wybierz dowolny plik audio lub wideo z dysku oraz folder, w którym ma zostać zapisana transkrypcja.
2. Wybierz język i model

Zostaw automatyczne wykrywanie albo zablokuj konkretny język. Wybierz rozmiar modelu Whisper (Tiny dla szybkości, Medium lub LargeV3 dla długich nagrań).
3. Transkrybuj

Aplikacja wyodrębnia czystą ścieżkę dźwiękową, uruchamia Whisper i zapisuje .txt i/lub .srt w wybranym przez ciebie folderze. To wszystko.

Co pod maską

Zbudowane w .NET 8 na Windows. Używa ffmpeg (LGPL) do dekodowania formatów oraz Whisper.net (MIT), który opakowuje whisper.cpp (MIT), do inferencji. Vulkan runtime dla GPU, CPU z fallbackiem AVX dla reszty. Pliki modeli są pobierane raz z Hugging Face (ggerganov/whisper.cpp) i cache’owane w %LOCALAPPDATA%.

Rozmiary modeli

Tiny · 77 MB · najszybszy · szybkie szkice
Base · 142 MB · mały krok dalej
Small · 466 MB · zalecany balans
Medium · 1,5 GB · dobra dokładność na długich plikach
Large-v3 · 3,1 GB · najlepsza jakość, najwolniejszy

Częste pytania

Czy to darmowe?

Tak. Aplikacja jest darmowa. Microsoft Store może w niektórych regionach pobrać małą jednorazową opłatę — to koszt dystrybucji, nie samego oprogramowania.

Czy działa offline?

Tak, od drugiego uruchomienia. Gdy pierwszy raz używasz modelu Whisper, aplikacja pobiera go z Hugging Face. Potem wszystko dzieje się lokalnie.

Jak dokładne?

Zależy od rozmiaru modelu i jakości dźwięku. Dla czystej mowy w obsługiwanym języku Medium i LargeV3 są blisko profesjonalnych usług transkrypcji. Dla głośnych nagrań z telefonu i wielu mieszanych języków spodziewaj się szkicu.

Czy widzicie moje pliki?

Nie. Aplikacja nie ma serwera. Pliki są dekodowane, transkrybowane i zapisywane w całości na twoim komputerze. Jedyne zewnętrzne połączenie to pobranie modelu Whisper przy pierwszym użyciu danego rozmiaru.

Pobierz aplikację

Dostępna w Microsoft Store dla Windows 10 i 11. Wersja ze Store jest samodzielna — nie trzeba instalować runtime’u .NET.