/ Каталог / Песочница / MarkItDown MCP
● Официальный microsoft ⚡ Сразу

MarkItDown MCP

автор microsoft · microsoft/markitdown

MarkItDown от Microsoft как MCP — конвертируйте PDF, DOCX, PPTX, XLSX, аудио и HTML в чистый Markdown для Claude.

MarkItDown — универсальный конвертер документов в Markdown от Microsoft, упакованный как MCP-сервер. Передайте ему любой офисный документ, PDF, изображение, аудиофайл, ZIP, EPub или URL и получите структурированный Markdown, с которым Claude сможет работать. MCP-слой (markitdown-mcp) — отдельный пакет в том же монорепо.

Зачем использовать

Ключевые функции

Живое демо

Как выглядит на практике

markitdown-mcp.replay ▶ готово
0/0

Установка

Выберите клиент

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "markitdown-mcp": {
      "command": "uvx",
      "args": [
        "markitdown-mcp"
      ]
    }
  }
}

Откройте Claude Desktop → Settings → Developer → Edit Config. Перезапустите после сохранения.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "markitdown-mcp": {
      "command": "uvx",
      "args": [
        "markitdown-mcp"
      ]
    }
  }
}

Cursor использует ту же схему mcpServers, что и Claude Desktop. Конфиг проекта приоритетнее глобального.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "markitdown-mcp": {
      "command": "uvx",
      "args": [
        "markitdown-mcp"
      ]
    }
  }
}

Щёлкните значок MCP Servers на боковой панели Cline, затем "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "markitdown-mcp": {
      "command": "uvx",
      "args": [
        "markitdown-mcp"
      ]
    }
  }
}

Тот же формат, что и Claude Desktop. Перезапустите Windsurf для применения.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "markitdown-mcp",
      "command": "uvx",
      "args": [
        "markitdown-mcp"
      ]
    }
  ]
}

Continue использует массив объектов серверов, а не map.

~/.config/zed/settings.json
{
  "context_servers": {
    "markitdown-mcp": {
      "command": {
        "path": "uvx",
        "args": [
          "markitdown-mcp"
        ]
      }
    }
  }
}

Добавьте в context_servers. Zed перезагружается автоматически.

claude mcp add markitdown-mcp -- uvx markitdown-mcp

Однострочная команда. Проверить: claude mcp list. Удалить: claude mcp remove.

Сценарии использования

Реальные сценарии: MarkItDown MCP

Загрузите 200-страничный PDF в Claude как читаемый Markdown

👤 Исследователи, юристы, все, у кого PDF-насыщенные рабочие процессы ⏱ ~15 min beginner

Когда использовать: Вам нужно обсудить конкретику из PDF, и вы не хотите копировать-вставлять страницы.

Поток
  1. Конвертация
    Use markitdown. Convert ~/Downloads/whitepaper.pdf to Markdown. Tell me total length and section count.✓ Скопировано
    → Markdown возвращён с итоговым содержанием
  2. Обсуждение конкретики
    From section 3, what claims do they make about throughput? Quote the exact lines.✓ Скопировано
    → Прямые цитаты с ссылками на разделы
  3. Сравнение с другим документом
    Now convert competitor.pdf the same way. Compare their throughput claims.✓ Скопировано
    → Таблица утверждений по каждому документу

Итог: Два PDF загружены, сравнены и доступны для цитирования в чате.

Подводные камни
  • Сканированные PDF возвращаются пустыми — MarkItDown делает базовый OCR — для PDF только из изображений сначала запустите OCR отдельно
Сочетать с: filesystem

Конвертируйте любой URL в чистый Markdown без скрейпинга браузером

👤 Все, кто хочет загружать статьи или документацию по URL ⏱ ~10 min beginner

Когда использовать: Статья динамически рендерится или за paywall; вы хотите структурированный вывод, а не сырой HTML.

Поток
  1. Загрузка и конвертация
    Use markitdown to convert https://example.com/long-article. Strip nav and footer.✓ Скопировано
    → Тело статьи в Markdown
  2. Суммирование или цитирование
    Give me the core claim and the strongest evidence cited.✓ Скопировано
    → Структурированное резюме

Итог: URL превращён в Markdown, пригодный для рассуждений.

Подводные камни
  • Тяжёлые SPA на JS возвращают пустое — Используйте MCP на основе браузера (browser-act, mcp-chrome) для SPA, затем передайте результат в markitdown

Пакетно конвертируйте папку смешанных Office-документов в базу знаний

👤 Knowledge ops, команды поддержки, создающие внутренние корпуса ⏱ ~30 min intermediate

Когда использовать: У вас папка Dropbox/SharePoint со смешанными документами, и вы хотите читаемость всех.

Поток
  1. Инвентаризация
    List ~/docs/ — group by extension. How many PDFs, DOCXs, PPTXs?✓ Скопировано
    → Количество по каждому расширению
  2. Конвертация всего
    Convert every doc in ~/docs/ to Markdown into ~/docs-md/. Preserve folder structure.✓ Скопировано
    → Зеркальное дерево с .md-файлами
  3. Индексирование для поиска
    Now give me a single index.md listing each doc's title and 2-line summary.✓ Скопировано
    → Индексный файл базы знаний

Итог: Папка смешанных форматов превращена в однородный Markdown-корпус.

Сочетать с: filesystem

Комбинации

Сочетайте с другими MCP — эффект x10

markitdown-mcp + filesystem

Чтение исходных файлов и пакетная конвертация

List ~/inbox/, convert each via markitdown, save to ~/processed/.✓ Скопировано
markitdown-mcp + office-word-mcp

Конвертация Word-документа в Markdown для редактирования и обратно

MarkItDown the .docx → edit the .md → use word-mcp to write a new .docx with the edits.✓ Скопировано

Инструменты

Что предоставляет этот MCP

ИнструментВходные данныеКогда вызыватьСтоимость
convert_to_markdown uri (file:// or http://) Любой документ, который нужно получить как текст 0 (LLM-хуки опциональны, платные)

Стоимость и лимиты

Во что обходится

Квота API
Не применимо — локальный
Токенов на вызов
Варьируется — большие PDF могут дать десятки тысяч строк MD
Деньги
Бесплатно (MIT). Опциональные LLM/Whisper хуки оплачиваются отдельно.
Совет
Пропускайте большие приложения — конвертируйте диапазоны страниц, если SDK поддерживает это для вашего типа файла

Безопасность

Права, секреты, радиус поражения

Минимальные скоупы: filesystem-read outbound:url-fetch
Хранение учётных данных: Нет по умолчанию; LLM-хуки требуют собственных ключей
Исходящий трафик: URL, которые вы просите загрузить; LLM-эндпоинты при включённых хуках

Устранение неполадок

Частые ошибки и исправления

ImportError на редком формате

MarkItDown имеет опциональные дополнения: pip install markitdown[all] для включения парсеров вроде youtube/azure-docs

Ошибки кодировки на старых DOC-файлах

Пересохраните в Office как DOCX перед конвертацией; поддержка .doc частичная

Таблицы выглядят сжатыми

MarkItDown сохраняет структуру таблиц, но Claude может потребовать явный prompt для рендеринга — запросите режим HTML-таблицы

Альтернативы

MarkItDown MCP в сравнении

АльтернативаКогда использоватьКомпромисс
Docling / UnstructuredВам нужна точность PDF-макета для сложных научных документовТяжелее зависимости; точнее с таблицами
kreuzbergЧистая извлечение текста с OCR для сканированных документовДругая цель оптимизации

Ещё

Ресурсы

📖 Читать официальный README на GitHub

🐙 Открытые задачи

🔍 Все 400+ MCP-серверов и Skills