PDF sang Markdown
Trích xuất PDF/DOCX/XLSX/PPTX sang Markdown cho input AI/LLM, RAG, Notion, Obsidian. Engine pdftotext + mammoth + LibreOffice, miễn phí không watermark.
Trích xuất PDF/DOCX/XLSX/PPTX sang Markdown chuẩn cho input ChatGPT/Claude, RAG pipeline, copy nội dung sang Notion/Obsidian. Engine pdftotext + mammoth + LibreOffice, miễn phí không watermark.
Chuyển PDF sang Markdown đang trở thành workflow chuẩn cho ai làm việc với AI/LLM. Khi bạn gửi PDF cho ChatGPT, Claude, Gemini, model thường đọc tốt hơn với input Markdown thuần text (heading rõ ràng, list cấu trúc) so với PDF binary. Markdown giúp AI hiểu context chính xác → kết quả tóm tắt, hỏi đáp, dịch thuật chất lượng hơn 30-50%.
Công cụ này pick engine tốt nhất cho mỗi format: pdftotext (Poppler) cho PDF — extract text với layout preserve, mammoth cho DOCX — convert native sang heading/list/bold markdown, SheetJS cho XLSX — render từng sheet thành Markdown table, LibreOffice chain cho PPTX. Tất cả engine open-source ổn định, miễn phí, không watermark.
Use case chính: feed PDF dài cho Claude/ChatGPT context window, build RAG pipeline (chunking + embedding), import nội dung sang Notion/Obsidian giữ nguyên định dạng, hoặc archive document research dạng plain text dễ search.
Tính năng nổi bật
DOCX biến thành GitHub Flavored Markdown (`#` heading, `-` list, `bold`). XLSX render thành Markdown table chuẩn (`|` cell, `---` separator). Render đẹp trong Notion, Obsidian, GitHub, Discord.
Một tool xử lý mọi office document. PDF dùng pdftotext layout-preserved, DOCX qua mammoth native, XLSX qua SheetJS, PPTX chain LibreOffice→DOCX→Markdown. Không cần riêng tool cho từng format.
Poppler pdftotext + mammoth (chuẩn DOCX spec) + SheetJS — đều là lib production hàng triệu app dùng. Output ổn định, không phụ thuộc cloud API, không gửi data bên thứ 3.
Output có nút Sao chép (clipboard) để paste thẳng vào ChatGPT/Claude, hoặc Tải .md file để lưu vào folder Obsidian/Notion. Tên file giữ nguyên, đổi extension .md.
Sau khi extract XLSX, hiển thị số sheet/table được render. Mỗi sheet thành 1 section riêng với heading `## SheetName`.
Cách sử dụng
- 1Bước 1: Upload file PDF/DOCX/XLSX/PPTX
Kéo thả hoặc click chọn. Tối đa 30MB. Hỗ trợ PDF text-based (không scan), Office 2007+ format (xlsx/docx, không xls/doc cũ).
- 2Bước 2: Click 'Trích xuất sang Markdown'
Server xử lý qua Kreuzberg native. Thời gian: PDF 50 trang ~2s, DOCX 100 trang ~1s, XLSX 10 sheet ~3s.
- 3Bước 3: Copy hoặc tải .md
Output hiển thị trong khung scroll. Click 'Sao chép' để paste vào ChatGPT/Claude/Notion. Hoặc 'Tải .md' để lưu file Markdown về máy.
Khi nào cần dùng
- Feed PDF cho ChatGPT/Claude — tóm tắt, dịch, hỏi đáp PDF dài 100+ trang. AI đọc Markdown tốt hơn PDF binary, kết quả chất lượng hơn 30-50%.
- Build RAG pipeline — extract corpus → markdown → chunking (LangChain text splitter) → embedding (OpenAI/Voyage) → vector DB (Pinecone/Qdrant). Step 1 của mọi RAG production.
- Import nghiên cứu sang Obsidian/Notion — sinh viên, nhà nghiên cứu chuyển paper academic sang note app để take note, link concept, build knowledge graph cá nhân.
- Archive document searchable — convert toàn bộ folder PDF báo cáo công ty sang .md, lưu Git → search được bằng `grep`/ripgrep, version control thay đổi qua thời gian.
- Generate AI training data — chuyển sách giáo trình, manual sang Markdown để fine-tune model nội bộ (llama.cpp, axolotl) cho domain knowledge cụ thể.
- Copy content sang blog/wiki — báo cáo Word của khách hàng → Markdown → paste vào WordPress block editor, GitBook, Hugo blog với nguyên format heading/list.
Câu hỏi thường gặp
PDF scan (ảnh chụp tài liệu) có extract được Markdown không?
▾
Output Markdown so với pdf.js extractText khác gì?
▾
Có giữ được hình ảnh trong PDF không?
▾
Bảng (table) có hoạt động đúng cho PDF có table phức tạp?
▾
File DOCX/XLSX có cần Microsoft Office trên server không?
▾
Tiếng Việt có dấu có extract đúng không?
▾
Tool này có replace được tool [Tóm tắt PDF](/vi/summarize-pdf) hoặc [Hỏi đáp PDF](/vi/chat-pdf) không?
▾
Engine có gửi data của tôi đi đâu không?
▾
Công cụ PDF khác
Convert PDF sang Excel, trích xuất bảng biểu và số liệu tự động. LibreOffice engine, chất lượng tốt cho PDF có table rõ ràng. Miễn phí online.
Dùng ngayConvert PDF sang file Word .docx giữ nguyên layout, font, bảng biểu. LibreOffice engine chất lượng cao, miễn phí không watermark. Hỗ trợ tiếng Việt có dấu đầy đủ.
Dùng ngayTrích xuất text từ file PDF scan (image-based) thành text copy được. Hỗ trợ tiếng Việt có dấu, tiếng Anh. Chạy browser với Tesseract.js, miễn phí.
Dùng ngayAI tóm tắt PDF dài 50-1000 trang thành 5-10 key points tiếng Việt. Giữ số liệu quan trọng, loại bỏ lặp. Miễn phí, chạy browser.
Dùng ngayTải phần mềm miễn phí & đọc tin công nghệ
Xem danh sách 20+ phần mềm desktop miễn phí và các bài so sánh tool tại Phần Mềm Tổng Hợp.