언제 쓸까: PDF의 내용을 논의해야 하고 페이지를 복사-붙여넣기하고 싶지 않을 때.
흐름
-
변환
Use markitdown. Convert ~/Downloads/whitepaper.pdf to Markdown. Tell me total length and section count.✓ 복사됨
→ TOC 요약과 함께 Markdown 반환
-
특정 내용 논의
From section 3, what claims do they make about throughput? Quote the exact lines.✓ 복사됨
→ 섹션 참조와 함께 직접 인용
-
다른 문서와 비교
Now convert competitor.pdf the same way. Compare their throughput claims.✓ 복사됨
→ 문서별 주장 표
결과: 두 PDF를 수집, 비교하고 채팅에서 인용 가능.
함정
- 스캔된 PDF가 빈 내용으로 나옴 — MarkItDown은 기본 OCR을 수행 — 이미지 전용 PDF는 먼저 업스트림에서 OCR 실행
언제 쓸까: 기사가 동적으로 렌더링되거나 페이월 뒤에 있을 때; 원시 HTML이 아닌 구조화된 출력을 원할 때.
흐름
-
가져오기 및 변환
Use markitdown to convert https://example.com/long-article. Strip nav and footer.✓ 복사됨
→ Markdown으로 변환된 기사 본문
-
요약 또는 인용
Give me the core claim and the strongest evidence cited.✓ 복사됨
→ 구조화된 요약
결과: 추론 가능한 Markdown으로 변환된 URL.
함정
- JS 중심 SPA에서 빈 내용 반환 — SPA에는 브라우저 기반 MCP(browser-act, mcp-chrome) 사용 후 markitdown으로 파이프
언제 쓸까: 혼합 문서가 있는 Dropbox/SharePoint 폴더를 모두 읽기 가능하게 만들고 싶을 때.
흐름
-
목록 확인
List ~/docs/ — group by extension. How many PDFs, DOCXs, PPTXs?✓ 복사됨
→ 확장자별 개수
-
전체 변환
Convert every doc in ~/docs/ to Markdown into ~/docs-md/. Preserve folder structure.✓ 복사됨
→ .md 파일이 있는 미러 트리
-
검색용 인덱스 생성
Now give me a single index.md listing each doc's title and 2-line summary.✓ 복사됨
→ 지식 베이스 인덱스 파일
결과: 혼합 포맷 폴더가 균일한 Markdown 코퍼스로 변환.