Transcribe audio y vídeo, en tu propia computadora.

Suelta una grabación, elige un idioma, obtén texto limpio o subtítulos. Nada se sube — el modelo corre localmente.

Lo que marca la diferencia

Procesamiento 100% local

Tus archivos nunca salen de tu equipo. Sin subidas, sin nube, sin esperar cola. Funciona sin conexión tras la primera descarga del modelo.

99 idiomas

OpenAI Whisper soporta casi cien idiomas con buena precisión. Detección automática por defecto; elige un idioma específico si quieres forzarlo.

Aceleración por GPU opcional

Una casilla cambia la inferencia a tu GPU a través de Vulkan — NVIDIA, AMD, Intel — y recae silenciosamente en la CPU si el driver no coopera.

Salida en TXT y SRT

Guarda transcripción de texto limpio, subtítulos listos para usar, o los dos en una sola ejecución — la inferencia pesada ocurre solo una vez.

Todo formato común de audio/vídeo

Notas de voz de WhatsApp (.opus, .ogg), grabaciones de OBS (.mkv), descargas de YouTube (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — ffmpeg se encarga de todos.

Telemetría mínima y anónima

Tu audio y tus transcripciones nunca salen de tu máquina. La app envía un único ping por instalación — un ID aleatorio, la versión de la app y el idioma del sistema — para saber en qué países e idiomas enfocarse. Nada más. Los componentes utilizados (FFmpeg, whisper.cpp, Whisper.net, .NET) son de código abierto y auditables de forma independiente.

Cómo funciona

1. Elige un archivo

Selecciona cualquier archivo de audio o vídeo del disco y la carpeta donde se guardará la transcripción.
2. Elige idioma y modelo

Deja la detección automática o fija un idioma. Elige el tamaño del modelo Whisper (Tiny para velocidad, Medium o LargeV3 para grabaciones largas).
3. Transcribe

La app extrae audio limpio, ejecuta Whisper y escribe el .txt y/o el .srt en la carpeta elegida. Eso es todo.

Bajo el capó

Hecho con .NET 8 en Windows. Usa ffmpeg (LGPL) para decodificar formatos y Whisper.net (MIT) envolviendo whisper.cpp (MIT) para la inferencia. Runtime Vulkan para GPU, CPU con fallback AVX para lo demás. Los archivos de modelo se descargan una vez desde Hugging Face (ggerganov/whisper.cpp) y quedan en caché en %LOCALAPPDATA%.

Tamaños de modelo

Tiny · 77 MB · el más rápido · borradores
Base · 142 MB · ligero salto
Small · 466 MB · equilibrio recomendado
Medium · 1,5 GB · buena precisión en archivos largos
Large-v3 · 3,1 GB · mejor calidad, más lento

Preguntas frecuentes

¿Es gratis?

Sí. La app es gratuita. Microsoft Store puede cobrar una tarifa única pequeña en algunas regiones — cubre la distribución, no el software.

¿Funciona sin conexión?

Sí, a partir de la segunda ejecución. La primera vez que eliges un modelo Whisper, la app lo descarga de Hugging Face. Después de eso, todo es local.

¿Qué precisión tiene?

Depende del tamaño del modelo y la calidad del audio. Con habla clara en un idioma soportado, Medium y LargeV3 se acercan a servicios profesionales. En grabaciones ruidosas de móvil con idiomas mezclados, espera borradores.

¿Ves mis archivos?

No. La app no tiene servidor. Los archivos se decodifican, transcriben y guardan enteramente en tu máquina. La única conexión externa es descargar el modelo Whisper la primera vez que usas cada tamaño.

Obtener la app

Disponible en Microsoft Store para Windows 10 y 11. La versión de la Store es autocontenida — no necesita instalar .NET.

Descargar en Microsoft Store