OCR PDF

Nhận dạng chữ trong file PDF scan (image-based) thành text copy được. Hỗ trợ tiếng Việt & tiếng Anh.

🔒 Xử lý ngay trên trình duyệt — file không rời khỏi thiết bị

⚠️ Lưu ý: lần đầu chạy sẽ tải ~10MB Tesseract model (cached cho lần sau). File PDF nhiều trang + tiếng Việt có thể mất 30s-3 phút tuỳ máy.

Nhấn để chọn PDF scan hoặc kéo thả

File PDF dạng ảnh quét — tối đa 50MB

Chọn file

Chọn PDF

File scan/ảnh quét

Chọn ngôn ngữ

Việt, Anh, hoặc cả 2

Copy/Tải text

File .txt hoặc clipboard

Trích xuất text từ PDF scan (image-based) — hỗ trợ tiếng Việt có dấu, tiếng Anh, hoặc cả 2. Chạy Tesseract.js trên browser, miễn phí.

OCR PDF (Optical Character Recognition) biến file PDF scan từ dạng ảnh thành text có thể copy, tìm kiếm, edit. Công cụ này hữu ích khi bạn nhận hoá đơn scan, tài liệu chụp lại từ giấy, hợp đồng scan — cần trích xuất nội dung nhanh thay vì gõ lại thủ công.

Công cụ dùng Tesseract.js (thư viện OCR open-source của Google) chạy 100% trên browser. Model tiếng Việt đã được train tốt, accuracy ~85-95% cho scan chất lượng cao. Lần đầu chạy sẽ tải ~7MB model tiếng Việt (cache lại cho lần sau).

Tính năng nổi bật

Hỗ trợ tiếng Việt có dấu

Model tesseract-vie được train trên corpus tiếng Việt. Nhận dạng 'á, è, ê, ô, ơ, ư, đ' chính xác.

Multi-language: vie + eng

File mix tiếng Việt + Anh (báo cáo có thuật ngữ Anh) dùng combo mode.

Render PDF chất lượng cao

Scale 2x (150 DPI effective) để OCR accuracy cao nhất.

Progress bar real-time

Theo dõi tiến độ OCR từng trang, có thể cancel nếu quá lâu.

Output copy clipboard / tải .txt

Edit text sau OCR nếu cần sửa lỗi, export text file hoặc paste trực tiếp.

Cách sử dụng

1
Bước 1: Upload PDF scan
Kéo thả file PDF dạng ảnh quét (nếu PDF đã có text layer, tool text-extractor khác phù hợp hơn).
2
Bước 2: Chọn ngôn ngữ OCR
Tiếng Việt (~7MB model), Tiếng Anh (~4MB), hoặc cả 2 (~11MB). Đợi tải model lần đầu.
3
Bước 3: Đợi OCR + copy/tải text
Tool render từng trang → recognize → output. Có thể edit trước khi download.

Khi nào cần dùng

Hoá đơn giấy scan — trích xuất số tiền, ngày tháng, mã hàng vào Excel kế toán.
Hợp đồng scan từ đối tác — convert thành text để search nhanh điều khoản, copy clause.
Sách cũ không có text layer — OCR để đọc ebook mà screen reader hỗ trợ, hoặc tìm từ khoá.
Tài liệu học tập scan — convert bài giảng scan thành notes, import vào Notion/Obsidian.
CV ảnh chụp — nhận dạng tên, email, kinh nghiệm của ứng viên, import vào ATS.

Câu hỏi thường gặp

OCR tiếng Việt có chính xác bao nhiêu %?

▾

Trung bình 85-95% cho scan chất lượng cao (300 DPI, chữ rõ, không nghiêng). Kém hơn (60-80%) với scan mờ, chữ viết tay, ảnh chụp điện thoại bị nghiêng. Luôn review kết quả trước khi dùng cho tài liệu quan trọng.

Tại sao lần đầu chạy lâu?

▾

Tool tải model Tesseract ~7-11MB từ CDN + train data cho ngôn ngữ. Sau lần đầu, browser cache lại → lần sau OCR nhanh hơn 3-5x.

File 50 trang OCR mất bao lâu?

▾

Trên laptop trung bình (i5/Ryzen 5, 8GB RAM): ~1-2 phút/trang cho tiếng Việt, tổng ~50-100 phút. Trên máy mạnh hoặc browser Chrome 140+ có thể nhanh hơn 2-3 lần.

OCR có xử lý chữ viết tay không?

▾

Kém. Tesseract được train trên printed text, không phải chữ viết tay. Accuracy chữ viết tay tiếng Việt chỉ ~30-50%. Cho chữ viết tay, dùng Google Vision API hoặc Microsoft Azure (trả phí, accuracy 80%+).

Có chạy offline không, có cần internet không?

▾

Cần internet lần đầu để tải model. Sau đó có thể offline — model cached trong browser storage. Browser Chromium có IndexedDB lưu model, persist qua browser restart.

File của tôi có bị upload server khi OCR không?

▾

Không. Tesseract.js chạy 100% trên browser qua WebAssembly. File + text output không rời khỏi máy. Phù hợp OCR tài liệu nhạy cảm (hợp đồng, hồ sơ y tế, tài chính).

OCR PDF đã có text layer sẵn có được không?

▾

Được nhưng không cần. Nếu PDF đã có text layer (generated từ Word/InDesign), dùng PDF text extractor thường (Adobe Acrobat, pdftotext CLI) nhanh hơn 100x. OCR chỉ cần khi PDF là ảnh scan.

Công cụ PDF khác

Chat với PDF

Upload PDF, hỏi AI về nội dung bên trong bằng tiếng Việt tự nhiên. Powered by Claude 4.7. Hỗ trợ file dài 1000+ trang. Miễn phí.

Dùng ngay

Tóm tắt PDF

AI tóm tắt PDF dài 50-1000 trang thành 5-10 key points tiếng Việt. Giữ số liệu quan trọng, loại bỏ lặp. Miễn phí, chạy browser.

Dùng ngay

Dịch PDF

Dịch toàn bộ PDF sang tiếng Việt hoặc ngôn ngữ khác, giữ layout gốc. Powered by AI chuẩn ngữ nghĩa. Miễn phí, không giới hạn số trang.

Dùng ngay

Khám phá thêm

Tải phần mềm miễn phí & đọc tin công nghệ

Xem danh sách 20+ phần mềm desktop miễn phí và các bài so sánh tool tại Phần Mềm Tổng Hợp.

Xem phần mềm miễn phí Đọc tin công nghệ