Extraire les tableaux d'un PDF en désordre dans un markdown propre
Quand l'utiliser : Vous avez un PDF avec des tables qui pdftotext mangles et vous ne voulez pas les retaper.
Prérequis
- MCP installed —
uvx kreuzberg-mcp— or add via claude mcp add
Déroulement
-
ExtractUse kreuzberg to extract /docs/2025-annual-report.pdf. Give me the tables as markdown and the body text separately.✓ Copié→ Clean markdown tables with preserved headers
-
VerifyFor the "Revenue by Segment" table, reconcile the column totals. Flag any OCR misreads.✓ Copié→ Arithmetic check with flagged cells
Résultat : Markdown tables you can paste into a doc without rework.
Pièges
- Scanned PDF — OCR mistakes 6 for 8 — Use the OCR confidence output and re-scan low-confidence cells manually