PDF Công Cụ

PDF sang Markdown

Trích xuất PDF/DOCX/XLSX/PPTX sang Markdown cho input AI/LLM, RAG, Notion, Obsidian. Engine pdftotext + mammoth + LibreOffice, miễn phí không watermark.

[Quảng cáo]

Trích xuất PDF/DOCX/XLSX/PPTX sang Markdown chuẩn cho input ChatGPT/Claude, RAG pipeline, copy nội dung sang Notion/Obsidian. Engine pdftotext + mammoth + LibreOffice, miễn phí không watermark.

Chuyển PDF sang Markdown đang trở thành workflow chuẩn cho ai làm việc với AI/LLM. Khi bạn gửi PDF cho ChatGPT, Claude, Gemini, model thường đọc tốt hơn với input Markdown thuần text (heading rõ ràng, list cấu trúc) so với PDF binary. Markdown giúp AI hiểu context chính xác → kết quả tóm tắt, hỏi đáp, dịch thuật chất lượng hơn 30-50%.

Công cụ này pick engine tốt nhất cho mỗi format: pdftotext (Poppler) cho PDF — extract text với layout preserve, mammoth cho DOCX — convert native sang heading/list/bold markdown, SheetJS cho XLSX — render từng sheet thành Markdown table, LibreOffice chain cho PPTX. Tất cả engine open-source ổn định, miễn phí, không watermark.

Use case chính: feed PDF dài cho Claude/ChatGPT context window, build RAG pipeline (chunking + embedding), import nội dung sang Notion/Obsidian giữ nguyên định dạng, hoặc archive document research dạng plain text dễ search.

Tính năng nổi bật

Output Markdown — heading, list, table

DOCX biến thành GitHub Flavored Markdown (`#` heading, `-` list, `bold`). XLSX render thành Markdown table chuẩn (`|` cell, `---` separator). Render đẹp trong Notion, Obsidian, GitHub, Discord.

Multi-format: PDF, DOCX, XLSX, PPTX

Một tool xử lý mọi office document. PDF dùng pdftotext layout-preserved, DOCX qua mammoth native, XLSX qua SheetJS, PPTX chain LibreOffice→DOCX→Markdown. Không cần riêng tool cho từng format.

Engine open-source ổn định

Poppler pdftotext + mammoth (chuẩn DOCX spec) + SheetJS — đều là lib production hàng triệu app dùng. Output ổn định, không phụ thuộc cloud API, không gửi data bên thứ 3.

Copy 1-click, download .md

Output có nút Sao chép (clipboard) để paste thẳng vào ChatGPT/Claude, hoặc Tải .md file để lưu vào folder Obsidian/Notion. Tên file giữ nguyên, đổi extension .md.

Detect số bảng XLSX

Sau khi extract XLSX, hiển thị số sheet/table được render. Mỗi sheet thành 1 section riêng với heading `## SheetName`.

Cách sử dụng

  1. 1
    Bước 1: Upload file PDF/DOCX/XLSX/PPTX

    Kéo thả hoặc click chọn. Tối đa 30MB. Hỗ trợ PDF text-based (không scan), Office 2007+ format (xlsx/docx, không xls/doc cũ).

  2. 2
    Bước 2: Click 'Trích xuất sang Markdown'

    Server xử lý qua Kreuzberg native. Thời gian: PDF 50 trang ~2s, DOCX 100 trang ~1s, XLSX 10 sheet ~3s.

  3. 3
    Bước 3: Copy hoặc tải .md

    Output hiển thị trong khung scroll. Click 'Sao chép' để paste vào ChatGPT/Claude/Notion. Hoặc 'Tải .md' để lưu file Markdown về máy.

Khi nào cần dùng

  • Feed PDF cho ChatGPT/Claude — tóm tắt, dịch, hỏi đáp PDF dài 100+ trang. AI đọc Markdown tốt hơn PDF binary, kết quả chất lượng hơn 30-50%.
  • Build RAG pipeline — extract corpus → markdown → chunking (LangChain text splitter) → embedding (OpenAI/Voyage) → vector DB (Pinecone/Qdrant). Step 1 của mọi RAG production.
  • Import nghiên cứu sang Obsidian/Notion — sinh viên, nhà nghiên cứu chuyển paper academic sang note app để take note, link concept, build knowledge graph cá nhân.
  • Archive document searchable — convert toàn bộ folder PDF báo cáo công ty sang .md, lưu Git → search được bằng `grep`/ripgrep, version control thay đổi qua thời gian.
  • Generate AI training data — chuyển sách giáo trình, manual sang Markdown để fine-tune model nội bộ (llama.cpp, axolotl) cho domain knowledge cụ thể.
  • Copy content sang blog/wiki — báo cáo Word của khách hàng → Markdown → paste vào WordPress block editor, GitBook, Hugo blog với nguyên format heading/list.

Câu hỏi thường gặp

PDF scan (ảnh chụp tài liệu) có extract được Markdown không?

Không trực tiếp. Tool chỉ extract được PDF có text layer (PDF số hoá từ Word, hoặc 'Save as PDF' từ trình soạn thảo). PDF scan ảnh thuần cần qua OCR PDF trước để thêm text layer, sau đó mới extract Markdown được. Output OCR + Markdown phù hợp cho việc digitize sách giấy.

Output Markdown so với pdf.js extractText khác gì?

Khác nhiều. `pdf.js extractText` chỉ trả về plain text liền tù tì — mất hết heading, list, table. Tool này dùng Kreuzberg analyze layout: detect heading qua font size, bullet list qua indent, table qua grid lines → output GFM structured. AI hoặc Notion render thành document đẹp ngay, không cần format lại.

Có giữ được hình ảnh trong PDF không?

Phiên bản hiện tại không extract ảnh — chỉ text + structure. Nếu cần ảnh, dùng PDF sang JPG export từng trang ra ảnh riêng, rồi reference trong Markdown manual. Phiên bản tương lai có thể thêm option export ảnh + link Markdown.

Bảng (table) có hoạt động đúng cho PDF có table phức tạp?

Tốt cho table có border rõ ràng + structure regular (financial report, sao kê ngân hàng, price list). Yếu hơn với table free-form không border, table merged cells phức tạp, hoặc table multi-line (1 cell có nhiều dòng). Test với file của bạn — nếu table sai cấu trúc, fallback dùng PDF sang Excel rồi copy vào Markdown manual.

File DOCX/XLSX có cần Microsoft Office trên server không?

Không. Kreuzberg parse XML structure trực tiếp (DOCX/XLSX/PPTX là ZIP của XML). Không cần Office, không cần LibreOffice. Nhanh hơn vì không spawn subprocess — chỉ Rust parse trong-process.

Tiếng Việt có dấu có extract đúng không?

Có. Kreuzberg full Unicode support — tiếng Việt (ú, ô, ê, đ), Nhật (ひらがな), Trung (中文), Hàn (한글), Arabic (العربية) đều OK. PDF có embed font Việt thì output Markdown cũng Việt đúng dấu.

Tool này có replace được tool [Tóm tắt PDF](/vi/summarize-pdf) hoặc [Hỏi đáp PDF](/vi/chat-pdf) không?

Bổ sung lẫn nhau. Tool này chỉ extract, không AI. Tool Tóm tắt/Chat PDF tự extract + gọi Claude API. Workflow tối ưu: dùng tool này extract Markdown → copy → paste vào ChatGPT.com / Claude.ai (web) để tận dụng context window 200K của ChatGPT/Claude trực tiếp. Hoặc dùng tool Tóm tắt/Chat của Phần Mềm Tổng Hợp nếu muốn 1 step xong (nhưng quota giới hạn).

Engine có gửi data của tôi đi đâu không?

Không. Tool dùng các lib chạy local trên server Phần Mềm Tổng Hợp — pdftotext (Poppler), mammoth (npm), SheetJS, LibreOffice — đều xử lý in-process trên server. Không gọi API ngoài, không gửi data ra cloud. File chỉ tạm trong RAM/tmp lúc xử lý, xoá ngay sau khi trả output về browser bạn. Privacy tương đương với mọi tool server-side khác trong hệ thống.

Công cụ PDF khác

Khám phá thêm

Tải phần mềm miễn phí & đọc tin công nghệ

Xem danh sách 20+ phần mềm desktop miễn phí và các bài so sánh tool tại Phần Mềm Tổng Hợp.