PDF Công Cụ

OCR PDF

Nhận dạng chữ trong file PDF scan (image-based) thành text copy được. Hỗ trợ tiếng Việt & tiếng Anh.

🔒 Xử lý ngay trên trình duyệt — file không rời khỏi thiết bị
⚠️ Lưu ý: lần đầu chạy sẽ tải ~10MB Tesseract model (cached cho lần sau). File PDF nhiều trang + tiếng Việt có thể mất 30s-3 phút tuỳ máy.
1

Chọn PDF

File scan/ảnh quét

2

Chọn ngôn ngữ

Việt, Anh, hoặc cả 2

3

Copy/Tải text

File .txt hoặc clipboard

Trích xuất text từ PDF scan (image-based) — hỗ trợ tiếng Việt có dấu, tiếng Anh, hoặc cả 2. Chạy Tesseract.js trên browser, miễn phí.

OCR PDF (Optical Character Recognition) biến file PDF scan từ dạng ảnh thành text có thể copy, tìm kiếm, edit. Công cụ này hữu ích khi bạn nhận hoá đơn scan, tài liệu chụp lại từ giấy, hợp đồng scan — cần trích xuất nội dung nhanh thay vì gõ lại thủ công.

Công cụ dùng Tesseract.js (thư viện OCR open-source của Google) chạy 100% trên browser. Model tiếng Việt đã được train tốt, accuracy ~85-95% cho scan chất lượng cao. Lần đầu chạy sẽ tải ~7MB model tiếng Việt (cache lại cho lần sau).

Tính năng nổi bật

Hỗ trợ tiếng Việt có dấu

Model tesseract-vie được train trên corpus tiếng Việt. Nhận dạng 'á, è, ê, ô, ơ, ư, đ' chính xác.

Multi-language: vie + eng

File mix tiếng Việt + Anh (báo cáo có thuật ngữ Anh) dùng combo mode.

Render PDF chất lượng cao

Scale 2x (150 DPI effective) để OCR accuracy cao nhất.

Progress bar real-time

Theo dõi tiến độ OCR từng trang, có thể cancel nếu quá lâu.

Output copy clipboard / tải .txt

Edit text sau OCR nếu cần sửa lỗi, export text file hoặc paste trực tiếp.

Cách sử dụng

  1. 1
    Bước 1: Upload PDF scan

    Kéo thả file PDF dạng ảnh quét (nếu PDF đã có text layer, tool text-extractor khác phù hợp hơn).

  2. 2
    Bước 2: Chọn ngôn ngữ OCR

    Tiếng Việt (~7MB model), Tiếng Anh (~4MB), hoặc cả 2 (~11MB). Đợi tải model lần đầu.

  3. 3
    Bước 3: Đợi OCR + copy/tải text

    Tool render từng trang → recognize → output. Có thể edit trước khi download.

Khi nào cần dùng

  • Hoá đơn giấy scan — trích xuất số tiền, ngày tháng, mã hàng vào Excel kế toán.
  • Hợp đồng scan từ đối tác — convert thành text để search nhanh điều khoản, copy clause.
  • Sách cũ không có text layer — OCR để đọc ebook mà screen reader hỗ trợ, hoặc tìm từ khoá.
  • Tài liệu học tập scan — convert bài giảng scan thành notes, import vào Notion/Obsidian.
  • CV ảnh chụp — nhận dạng tên, email, kinh nghiệm của ứng viên, import vào ATS.

Câu hỏi thường gặp

OCR tiếng Việt có chính xác bao nhiêu %?

Trung bình 85-95% cho scan chất lượng cao (300 DPI, chữ rõ, không nghiêng). Kém hơn (60-80%) với scan mờ, chữ viết tay, ảnh chụp điện thoại bị nghiêng. Luôn review kết quả trước khi dùng cho tài liệu quan trọng.

Tại sao lần đầu chạy lâu?

Tool tải model Tesseract ~7-11MB từ CDN + train data cho ngôn ngữ. Sau lần đầu, browser cache lại → lần sau OCR nhanh hơn 3-5x.

File 50 trang OCR mất bao lâu?

Trên laptop trung bình (i5/Ryzen 5, 8GB RAM): ~1-2 phút/trang cho tiếng Việt, tổng ~50-100 phút. Trên máy mạnh hoặc browser Chrome 140+ có thể nhanh hơn 2-3 lần.

OCR có xử lý chữ viết tay không?

Kém. Tesseract được train trên printed text, không phải chữ viết tay. Accuracy chữ viết tay tiếng Việt chỉ ~30-50%. Cho chữ viết tay, dùng Google Vision API hoặc Microsoft Azure (trả phí, accuracy 80%+).

Có chạy offline không, có cần internet không?

Cần internet lần đầu để tải model. Sau đó có thể offline — model cached trong browser storage. Browser Chromium có IndexedDB lưu model, persist qua browser restart.

File của tôi có bị upload server khi OCR không?

Không. Tesseract.js chạy 100% trên browser qua WebAssembly. File + text output không rời khỏi máy. Phù hợp OCR tài liệu nhạy cảm (hợp đồng, hồ sơ y tế, tài chính).

OCR PDF đã có text layer sẵn có được không?

Được nhưng không cần. Nếu PDF đã có text layer (generated từ Word/InDesign), dùng PDF text extractor thường (Adobe Acrobat, pdftotext CLI) nhanh hơn 100x. OCR chỉ cần khi PDF là ảnh scan.

Công cụ PDF khác

Khám phá thêm

Tải phần mềm miễn phí & đọc tin công nghệ

Xem danh sách 20+ phần mềm desktop miễn phí và các bài so sánh tool tại Phần Mềm Tổng Hợp.