- AI-Screenshot-Translator (GPL-3.0) dịch text trong ảnh chụp màn hình bằng AI, hỗ trợ OpenAI, Gemini và Claude.
- Điểm nổi bật là render LaTeX chuẩn xác qua KaTeX - thứ hầu hết công cụ OCR truyền thống thất bại hoàn toàn.
- v1.0.5-beta phát hành 2/4/2026, đạt 174 sao GitHub trong 10 tuần.
- Miễn phí GPL-3.0, cần API key riêng để dùng AI.
TL;DR

Đọc paper nước ngoài dạng scan mà không copy-paste được text? Công thức toán học vỡ nát khi dán vào Google Translate? AI-Screenshot-Translator (Diraw/AI-Screenshot-Translator) giải quyết đúng vào đây: một phím tắt toàn cục, AI nhận dạng nội dung ảnh - kể cả LaTeX phức tạp nhất - rồi render kết quả chuẩn Markdown ngay trong cửa sổ floating. Miễn phí, GPL-3.0, không cần đăng ký tài khoản. Chỉ cần API key của AI provider bạn đang dùng.
Vấn đề cần giải quyết
Bất kỳ ai đọc paper khoa học đều biết cảm giác này: mở một file PDF scan, muốn dịch một đoạn nhưng không thể bôi đen, không thể copy. Hoặc tệ hơn - bôi đen được nhưng dán vào Google Translate thì công thức toán học biến thành ký tự lạ, mất hết ý nghĩa.
Các công cụ OCR truyền thống như Google Lens hay trình dịch tích hợp sẵn của Windows xử lý ổn với text thông thường, nhưng gần như thất bại hoàn toàn khi gặp LaTeX, ký hiệu toán học, hoặc code snippet. AI-Screenshot-Translator ra đời để giải quyết đúng điểm đau đó - không phải bằng cách cải thiện OCR truyền thống, mà bằng cách đưa toàn bộ vision task cho AI multimodal xử lý, rồi render kết quả với đầy đủ định dạng.
Cách hoạt động
Quy trình chỉ ba bước:
- Nhấn
Ctrl+Alt+S- kích hoạt chế độ chụp vùng màn hình (hotkey tùy chỉnh được) - Kéo chọn vùng cần dịch - text, công thức, đoạn code, bảng biểu, bất kỳ thứ gì
- AI phân tích ảnh, trả về bản dịch với Markdown, syntax highlighting, và LaTeX render qua KaTeX
Kết quả hiển thị trong cửa sổ floating có thể ghim (always-on-top), chỉnh sửa inline, tag, và lưu vào SQLite cục bộ với full-text search. Toàn bộ lịch sử dịch ở máy bạn - không server trung gian nào lưu dữ liệu của bạn ngoài lần gọi API đến provider bạn chọn.
Từ v1.0.5-beta, có thêm batch mode: chụp nhiều ảnh liên tiếp, nhấn ENTER để dịch tuần tự - hữu ích khi cần xử lý nhiều trang tài liệu một lúc.
Tính năng nổi bật
- LaTeX rendering (KaTeX): Công thức toán học render chính xác trong kết quả dịch - đây là điểm khác biệt lớn nhất và là lý do chính để chọn tool này thay vì giải pháp khác
- Multi-provider AI: OpenAI, Google Gemini, Anthropic Claude - tự cấu hình Base URL, endpoint, proxy, và custom prompt cho từng profile
- SQLite archive với full-text search: Lưu toàn bộ lịch sử dịch, lọc theo ngày và tag, retranslate bất kỳ mục nào (có từ v1.0.3, migrate từ JSON)
- Batch mode: Chụp nhiều ảnh, dịch tuần tự bằng ENTER, switch bằng phím D (v1.0.5-beta)
- Custom prompt: Tùy chỉnh system prompt để AI dịch theo phong cách mong muốn - học thuật, kỹ thuật, hay thông thường
- Keyboard-driven hoàn toàn: Mọi thao tác đều có phím tắt - Z/X để lướt kết quả, T để tag, E để edit, R để xem raw text và copy toàn bộ vào clipboard
- Multiple config profiles: Lưu nhiều bộ cấu hình API khác nhau, import/export dễ dàng giữa các máy
So sánh với công cụ khác
| Tiêu chí | OCR truyền thống | AI-Screenshot-Translator |
|---|---|---|
| Công thức LaTeX | Vỡ / ký tự sai | Render đúng qua KaTeX |
| AI backend | Cố định / độc quyền | Tự cấu hình (OpenAI/Gemini/Claude) |
| Custom prompt | Không có | Hoàn toàn tùy chỉnh |
| Lưu lịch sử | Tối thiểu hoặc không | SQLite + full-text search + tag |
| Chỉnh sửa kết quả | Read-only | Inline editing |
| Code block | Plain text | Syntax-highlighted (highlight.js) |
| Giá | Freemium / subscription | Miễn phí GPL-3.0 + BYOK |
| Nền tảng | Thường cross-platform | Windows 10/11 only |
Hạn chế cần biết
- Windows only: Phụ thuộc cứng vào WebView2 (Microsoft) - không có kế hoạch hỗ trợ macOS hay Linux
- BYOK model: Tool miễn phí nhưng bạn phải tự trả phí API - OpenAI, Gemini, hoặc Claude
- Vẫn là beta: v1.0.5 tagged "beta" - release cadence nhanh (8 phiên bản trong 10 tuần) nhưng có thể còn bug
- Docs tiếng Trung: README và hướng dẫn chủ yếu bằng tiếng Trung, ít tài liệu tiếng Anh
- Single developer: Dự án một người - rủi ro dài hạn dù tốc độ phát triển hiện tại rất tích cực (174 sao, 23 fork sau 10 tuần)
Nên dùng ngay nếu bạn là...
Tool phù hợp nhất với những ai:
- Researcher / sinh viên: Thường xuyên đọc paper khoa học nước ngoài dạng scan có công thức toán học - đây là use case tool được xây dựng để phục vụ
- Developer: Cần dịch tài liệu kỹ thuật nước ngoài, muốn code snippet được highlight đúng trong kết quả
- Windows power user: Muốn workflow dịch thuật hoàn toàn qua bàn phím, có archive tìm kiếm được về sau
- Người muốn kiểm soát chi phí AI: BYOK model cho phép dùng model rẻ (Gemini Flash, GPT-4o Mini) thay vì subscription cố định
Tải bản cài đặt tại GitHub Releases. Phiên bản hiện tại: v1.0.5-beta (2/4/2026). Nguồn mở theo giấy phép GPL-3.0.
Nguồn: GitHub - Diraw/AI-Screenshot-Translator, Releases page.
