Phiên âm âm thanh và video ngay trên máy tính của bạn.

Thả một bản ghi, chọn ngôn ngữ, nhận văn bản sạch hoặc phụ đề. Không có gì được tải lên internet — mô hình chạy cục bộ.

Điều làm nên sự khác biệt

Xử lý 100% cục bộ

Tệp của bạn không bao giờ rời khỏi máy của bạn. Không tải lên, không đám mây, không chờ hàng đợi. Hoạt động ngoại tuyến sau lần tải mô hình đầu tiên.

99 ngôn ngữ

OpenAI Whisper hỗ trợ gần một trăm ngôn ngữ với độ chính xác cao. Mặc định là tự động nhận diện; chọn một ngôn ngữ cụ thể nếu muốn ép buộc.

Tăng tốc GPU tùy chọn

Một hộp kiểm chuyển quá trình suy luận sang GPU của bạn qua Vulkan — NVIDIA, AMD, Intel — và lặng lẽ quay về CPU nếu driver không hợp tác.

Xuất ra TXT và SRT

Lưu văn bản sạch, phụ đề sẵn dùng, hoặc cả hai trong một lần chạy — phần tính toán nặng chỉ diễn ra một lần.

Mọi định dạng âm thanh/video thông dụng

Tin nhắn thoại WhatsApp (.opus, .ogg), bản ghi OBS (.mkv), tệp tải từ YouTube (.webm), MP3, MP4, MOV, WAV, FLAC, M4A — ffmpeg xử lý tất cả.

Đo lường tối thiểu, ẩn danh

Âm thanh và bản phiên của bạn không bao giờ rời khỏi máy của bạn. Ứng dụng gửi một ping duy nhất cho mỗi lần cài đặt — một ID ngẫu nhiên, phiên bản ứng dụng, và ngôn ngữ hệ thống — để có thể biết nên tập trung vào quốc gia và ngôn ngữ nào. Chỉ vậy thôi. Các thành phần bên dưới (FFmpeg, whisper.cpp, Whisper.net, .NET) là mã nguồn mở và có thể kiểm tra độc lập.

Cách hoạt động

  1. 1. Chọn tệp

    Chọn bất kỳ tệp âm thanh hoặc video nào trên đĩa và thư mục nơi bản phiên sẽ được lưu.

  2. 2. Chọn ngôn ngữ và mô hình

    Giữ nhận diện tự động hoặc khóa vào một ngôn ngữ cụ thể. Chọn kích thước mô hình Whisper (Tiny cho tốc độ, Medium hoặc LargeV3 cho các bản ghi dài).

  3. 3. Phiên âm

    Ứng dụng trích xuất một bản âm thanh sạch, chạy Whisper, và ghi .txt và/hoặc .srt vào thư mục bạn đã chọn. Chỉ vậy thôi.

Bên trong nắp ca-pô

Được xây dựng bằng .NET 8 trên Windows. Sử dụng ffmpeg (LGPL) để giải mã định dạng và Whisper.net (MIT) bọc quanh whisper.cpp (MIT) để suy luận. Vulkan runtime cho GPU, CPU với dự phòng AVX cho những thứ còn lại. Các tệp mô hình được tải một lần từ Hugging Face (ggerganov/whisper.cpp) và được lưu bộ đệm tại %LOCALAPPDATA%.

Kích thước mô hình

  • Tiny · 77 MB · nhanh nhất · bản nháp nhanh
  • Base · 142 MB · bước tiến nhỏ
  • Small · 466 MB · cân bằng được khuyến nghị
  • Medium · 1,5 GB · độ chính xác mạnh trên các tệp dài
  • Large-v3 · 3,1 GB · chất lượng tốt nhất, chậm nhất

Câu hỏi thường gặp

Có miễn phí không?

Có. Ứng dụng miễn phí. Microsoft Store có thể tính một khoản phí nhỏ một lần ở một số khu vực — đó là chi phí phân phối, không phải chi phí của phần mềm.

Có chạy ngoại tuyến không?

Có, kể từ lần chạy thứ hai trở đi. Lần đầu tiên bạn dùng một mô hình Whisper, ứng dụng sẽ tải nó từ Hugging Face. Sau đó, mọi thứ đều cục bộ.

Độ chính xác thế nào?

Phụ thuộc vào kích thước mô hình và chất lượng âm thanh. Với giọng nói rõ trong một ngôn ngữ được hỗ trợ, Medium và LargeV3 gần bằng các dịch vụ phiên âm chuyên nghiệp. Với bản ghi điện thoại ồn và ngôn ngữ trộn lẫn, hãy chờ đợi một bản nháp thô.

Các bạn có thấy tệp của tôi không?

Không. Ứng dụng không có máy chủ. Tệp được giải mã, phiên âm và lưu hoàn toàn trên máy của bạn. Kết nối bên ngoài duy nhất là tải mô hình Whisper vào lần đầu tiên bạn dùng mỗi kích thước.

Tải ứng dụng

Có trên Microsoft Store cho Windows 10 và 11. Bản Store là độc lập — không cần cài runtime .NET.

Tải trên Microsoft Store