Transcreva áudio e vídeo, no seu computador.

Solte uma gravação, escolha o idioma, receba texto limpo ou legendas. Nada é enviado pra internet — o modelo roda localmente.

Baixar na Microsoft Store

O que faz a diferença

Processamento 100% local

Seus arquivos nunca saem da sua máquina. Sem upload, sem nuvem, sem espera em fila. Funciona offline depois do primeiro download do modelo.

99 idiomas

O OpenAI Whisper suporta quase cem idiomas com boa precisão. Detecção automática por padrão; escolha um idioma específico se quiser forçar.

Aceleração por GPU opcional

Um checkbox muda a inferência pra sua GPU via Vulkan — NVIDIA, AMD, Intel — e cai silenciosamente pra CPU se o driver não colaborar.

Saída em TXT e SRT

Salve a transcrição em texto limpo, legendas prontas pra usar, ou os dois numa única execução — a inferência pesada acontece só uma vez.

Todo formato comum de áudio e vídeo

Áudios do WhatsApp (.opus, .ogg), gravações do OBS (.mkv), downloads do YouTube (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — o ffmpeg dá conta de todos.

Telemetria mínima e anônima

Seu áudio e suas transcrições nunca saem da sua máquina. O app envia um único ping por instalação — um ID aleatório, a versão do app e o idioma do sistema — pra dar noção de em quais países e idiomas focar. Só isso. Os componentes usados (FFmpeg, whisper.cpp, Whisper.net, .NET) são open source e auditáveis independentemente.

Como funciona

1. Escolha um arquivo

Selecione qualquer arquivo de áudio ou vídeo no disco e a pasta onde a transcrição deve ser salva.
2. Escolha idioma e modelo

Deixe a detecção automática ou trave num idioma específico. Escolha o tamanho do modelo Whisper (Tiny pra velocidade, Medium ou LargeV3 pra gravações longas).
3. Transcreva

O app extrai o áudio limpo, roda o Whisper e grava o .txt e/ou o .srt na pasta que você escolheu. Só isso.

Por baixo dos panos

Feito em .NET 8 no Windows. Usa ffmpeg (LGPL) pra decodificar formatos e Whisper.net (MIT) embrulhando o whisper.cpp (MIT) pra inferência. Runtime Vulkan pra GPU, CPU com fallback AVX pra todo o resto. Os modelos são baixados uma vez do Hugging Face (ggerganov/whisper.cpp) e ficam em cache em %LOCALAPPDATA%.

Tamanhos de modelo

Tiny · 77 MB · o mais rápido · rascunhos
Base · 142 MB · um pequeno salto
Small · 466 MB · equilíbrio recomendado
Medium · 1,5 GB · boa precisão em arquivos longos
Large-v3 · 3,1 GB · melhor qualidade, mais lento

Perguntas frequentes

É gratuito?

Sim. O app é gratuito. A Microsoft Store pode cobrar uma pequena taxa única em algumas regiões — isso cobre a distribuição, não o software.

Funciona offline?

Sim, a partir da segunda execução. Na primeira vez que você usa um modelo Whisper, o app baixa ele do Hugging Face. Depois disso, tudo é local.

Qual a precisão?

Depende do tamanho do modelo e da qualidade do áudio. Com fala limpa num idioma suportado, Medium e LargeV3 chegam perto de serviços profissionais de transcrição. Em gravações de celular com ruído e idiomas misturados, espere rascunhos.

Você vê meus arquivos?

Não. O app não tem servidor. Arquivos são decodificados, transcritos e salvos inteiramente na sua máquina. A única conexão externa é baixar o modelo Whisper na primeira vez que você usa cada tamanho.

Baixar o app

Disponível na Microsoft Store pra Windows 10 e 11. A build da Store é auto-contida — sem precisar instalar o .NET.