Colocar um PDF de 200 páginas na frente do Claude como Markdown legível
👤 Pesquisadores, advogados, qualquer pessoa com fluxos de trabalho com muitos PDFs
⏱ ~15 min
beginner
Quando usar: Você precisa discutir detalhes de um PDF e não quer copiar e colar páginas.
Fluxo
-
Converter
Use markitdown. Convert ~/Downloads/whitepaper.pdf to Markdown. Tell me total length and section count.✓ Copiado
→ Markdown retornado com resumo do sumário
-
Discutir detalhes específicos
From section 3, what claims do they make about throughput? Quote the exact lines.✓ Copiado
→ Citações diretas com referências de seção
-
Comparar com outro documento
Now convert competitor.pdf the same way. Compare their throughput claims.✓ Copiado
→ Tabela de afirmações por documento
Resultado: Dois PDFs ingeridos, comparados e citáveis no chat.
Armadilhas
- PDFs digitalizados saem vazios — O MarkItDown faz OCR básico — para PDFs somente com imagem, execute OCR upstream primeiro
Quando usar: O artigo é renderizado dinamicamente ou está atrás de paywall; você quer saída estruturada, não HTML bruto.
Fluxo
-
Buscar e converter
Use markitdown to convert https://example.com/long-article. Strip nav and footer.✓ Copiado
→ Corpo do artigo em Markdown
-
Resumir ou citar
Give me the core claim and the strongest evidence cited.✓ Copiado
→ Resumo estruturado
Resultado: URL transformada em Markdown de qualidade para raciocínio.
Armadilhas
- SPAs com muito JavaScript retornam vazias — Use um MCP baseado em navegador (browser-act, mcp-chrome) para SPAs e depois passe para o markitdown
Quando usar: Você tem uma pasta do Dropbox/SharePoint com documentos mistos e quer que todos sejam legíveis.
Fluxo
-
Fazer inventário
List ~/docs/ — group by extension. How many PDFs, DOCXs, PPTXs?✓ Copiado
→ Contagens por extensão
-
Converter todos
Convert every doc in ~/docs/ to Markdown into ~/docs-md/. Preserve folder structure.✓ Copiado
→ Árvore espelhada com arquivos .md
-
Indexar para recuperação
Now give me a single index.md listing each doc's title and 2-line summary.✓ Copiado
→ Arquivo de índice da base de conhecimento
Resultado: Pasta com formatos mistos transformada em corpus Markdown homogênea.