何时使用: 你需要讨论 PDF 中的具体内容,但不想逐页复制粘贴。
步骤
-
转换
Use markitdown. Convert ~/Downloads/whitepaper.pdf to Markdown. Tell me total length and section count.✓ 已复制
→ 返回带目录摘要的 Markdown
-
讨论具体内容
From section 3, what claims do they make about throughput? Quote the exact lines.✓ 已复制
→ 带章节引用的直接引文
-
与另一文档对比
Now convert competitor.pdf the same way. Compare their throughput claims.✓ 已复制
→ 按文档列出的主张对比表
结果: 两份 PDF 均已读取,可在对话中对比引用。
注意事项
- 扫描版 PDF 输出为空 — MarkItDown 有基本 OCR——纯图片 PDF 请先在上游做 OCR
何时使用: 文章是动态渲染或需要付费墙;你想要结构化输出,而非原始 HTML。
步骤
-
抓取并转换
Use markitdown to convert https://example.com/long-article. Strip nav and footer.✓ 已复制
→ Markdown 格式的文章正文
-
摘要或引用
Give me the core claim and the strongest evidence cited.✓ 已复制
→ 结构化摘要
结果: URL 内容转换为可用于推理的 Markdown。
注意事项
- JS 密集型 SPA 返回空内容 — 对 SPA 使用基于浏览器的 MCP(browser-act、mcp-chrome),再通过管道传给 markitdown
何时使用: 你在 Dropbox/SharePoint 中有一个混合文档文件夹,希望全部转为可读格式。
步骤
-
盘点
List ~/docs/ — group by extension. How many PDFs, DOCXs, PPTXs?✓ 已复制
→ 按扩展名统计数量
-
全部转换
Convert every doc in ~/docs/ to Markdown into ~/docs-md/. Preserve folder structure.✓ 已复制
→ 带 .md 文件的镜像目录树
-
建立索引以便检索
Now give me a single index.md listing each doc's title and 2-line summary.✓ 已复制
→ 知识库索引文件
结果: 混合格式文件夹转换为统一的 Markdown 语料库。