Extraer tablas de un PDF desordenado en rebajas limpias
Cuándo usarlo: Tienes un PDF con tablas que pdftotext mangles y no quieres volver a escribirlas.
Requisitos previos
- MCP instalado —
uvx kreuzberg-mcp— o añadir a través de claude mcp añadir
Flujo
-
ExtraerUtilice kreuzberg para extraer /docs/2025-annual-report.pdf. Dame las tablas como rebaja y el texto del cuerpo por separado.✓ Copiado→ Limpiar las tablas de rebajas con encabezados conservados
-
VerificarFor the "Revenue by Segment" table, reconcile the column totals. Flag any OCR misreads.✓ Copiado→ Arithmetic check with flagged cells
Resultado: Tablas de Markdown que puedes pegar en un documento sin tener que volver a trabajar.
Errores comunes
- Scanned PDF — OCR mistakes 6 for 8 — Use the OCR confidence output and re-scan low-confidence cells manually