OCR PDF
Nhận dạng chữ trong file PDF scan (image-based) thành text copy được. Hỗ trợ tiếng Việt & tiếng Anh.
Chọn PDF
File scan/ảnh quét
Chọn ngôn ngữ
Việt, Anh, hoặc cả 2
Copy/Tải text
File .txt hoặc clipboard
Trích xuất text từ PDF scan (image-based) — hỗ trợ tiếng Việt có dấu, tiếng Anh, hoặc cả 2. Chạy Tesseract.js trên browser, miễn phí.
OCR PDF (Optical Character Recognition) biến file PDF scan từ dạng ảnh thành text có thể copy, tìm kiếm, edit. Công cụ này hữu ích khi bạn nhận hoá đơn scan, tài liệu chụp lại từ giấy, hợp đồng scan — cần trích xuất nội dung nhanh thay vì gõ lại thủ công.
Công cụ dùng Tesseract.js (thư viện OCR open-source của Google) chạy 100% trên browser. Model tiếng Việt đã được train tốt, accuracy ~85-95% cho scan chất lượng cao. Lần đầu chạy sẽ tải ~7MB model tiếng Việt (cache lại cho lần sau).
Tính năng nổi bật
Model tesseract-vie được train trên corpus tiếng Việt. Nhận dạng 'á, è, ê, ô, ơ, ư, đ' chính xác.
File mix tiếng Việt + Anh (báo cáo có thuật ngữ Anh) dùng combo mode.
Scale 2x (150 DPI effective) để OCR accuracy cao nhất.
Theo dõi tiến độ OCR từng trang, có thể cancel nếu quá lâu.
Edit text sau OCR nếu cần sửa lỗi, export text file hoặc paste trực tiếp.
Cách sử dụng
- 1Bước 1: Upload PDF scan
Kéo thả file PDF dạng ảnh quét (nếu PDF đã có text layer, tool text-extractor khác phù hợp hơn).
- 2Bước 2: Chọn ngôn ngữ OCR
Tiếng Việt (~7MB model), Tiếng Anh (~4MB), hoặc cả 2 (~11MB). Đợi tải model lần đầu.
- 3Bước 3: Đợi OCR + copy/tải text
Tool render từng trang → recognize → output. Có thể edit trước khi download.
Khi nào cần dùng
- Hoá đơn giấy scan — trích xuất số tiền, ngày tháng, mã hàng vào Excel kế toán.
- Hợp đồng scan từ đối tác — convert thành text để search nhanh điều khoản, copy clause.
- Sách cũ không có text layer — OCR để đọc ebook mà screen reader hỗ trợ, hoặc tìm từ khoá.
- Tài liệu học tập scan — convert bài giảng scan thành notes, import vào Notion/Obsidian.
- CV ảnh chụp — nhận dạng tên, email, kinh nghiệm của ứng viên, import vào ATS.
Câu hỏi thường gặp
OCR tiếng Việt có chính xác bao nhiêu %?
▾
Tại sao lần đầu chạy lâu?
▾
File 50 trang OCR mất bao lâu?
▾
OCR có xử lý chữ viết tay không?
▾
Có chạy offline không, có cần internet không?
▾
File của tôi có bị upload server khi OCR không?
▾
OCR PDF đã có text layer sẵn có được không?
▾
Công cụ PDF khác
Upload PDF, hỏi AI về nội dung bên trong bằng tiếng Việt tự nhiên. Powered by Claude 4.7. Hỗ trợ file dài 1000+ trang. Miễn phí.
Dùng ngayAI tóm tắt PDF dài 50-1000 trang thành 5-10 key points tiếng Việt. Giữ số liệu quan trọng, loại bỏ lặp. Miễn phí, chạy browser.
Dùng ngayDịch toàn bộ PDF sang tiếng Việt hoặc ngôn ngữ khác, giữ layout gốc. Powered by AI chuẩn ngữ nghĩa. Miễn phí, không giới hạn số trang.
Dùng ngayTải phần mềm miễn phí & đọc tin công nghệ
Xem danh sách 20+ phần mềm desktop miễn phí và các bài so sánh tool tại Phần Mềm Tổng Hợp.