/ 디렉터리 / 플레이그라운드 / Kreuzberg
● 커뮤니티 kreuzberg-dev ⚡ 바로 사용

Kreuzberg

제작: kreuzberg-dev · kreuzberg-dev/kreuzberg

Rust 코어 MCP를 통해 PDF, Office 문서, 이미지 및 97개 이상의 기타 형식에서 깨끗한 텍스트, 표 및 메타데이터를 추출합니다.

Kreuzberg는 다중 언어 문서 인텔리전스 프레임워크입니다. MCP 서버는 핵심 Rust 파이프라인을 래핑합니다. Claude는 Unstructured/Tika/pdfplumber로 셸링하지 않고 모든 문서 형식에서 구조화된 콘텐츠를 추출하기 위해 이 서버를 호출합니다. 스캔한 PDF, 테이블 감지 및 메타데이터에 대한 OCR을 한 번의 통화로 처리합니다.

왜 쓰나요

핵심 기능

라이브 데모

실제 사용 모습

kreuzberg.replay ▶ 준비됨
0/0

설치

클라이언트 선택

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config 열기. 저장 후 앱 재시작.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Cursor는 Claude Desktop과 동일한 mcpServers 스키마 사용. 프로젝트 설정이 전역보다 우선.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Cline 사이드바의 MCP Servers 아이콘 클릭 후 "Edit Configuration" 선택.

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Claude Desktop과 같은 형식. Windsurf 재시작 후 적용.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "kreuzberg",
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  ]
}

Continue는 맵이 아닌 서버 오브젝트 배열 사용.

~/.config/zed/settings.json
{
  "context_servers": {
    "kreuzberg": {
      "command": {
        "path": "uvx",
        "args": [
          "kreuzberg-mcp"
        ]
      }
    }
  }
}

context_servers에 추가. 저장 시 Zed가 핫 리로드.

claude mcp add kreuzberg -- uvx kreuzberg-mcp

한 줄 명령. claude mcp list로 확인, claude mcp remove로 제거.

사용 사례

실전 활용법: Kreuzberg

지저분한 PDF에서 깨끗한 감점으로 표 추출

👤 보고서 PDF를 다루는 분석가 ⏱ ~10 min beginner

언제 쓸까: Pdftotext가 맹글링되는 표가 있는 PDF가 있으며 다시 입력하고 싶지 않습니다.

사전 조건
  • MCP 설치됨uvx kreuzberg-mcp — 또는 claude mcp add를 통해 추가
흐름
  1. 탈출
    Kreuzberg를 사용하여/docs/2025-annual-report.pdf를 추출합니다. 표는 감점, 본문은 별도로 주세요.✓ 복사됨
    → 보존된 헤더가 있는 감점 테이블 정리
  2. 인증하기
    "세그먼트별 수익" 테이블의 경우 열 합계를 조정합니다. 잘못된 OCR 읽음에 플래그를 지정합니다.✓ 복사됨
    → 플래그가 지정된 셀을 사용한 산술 검사

결과: 재작업 없이 문서에 붙여넣을 수 있는 마크다운 표입니다.

함정
  • 스캔한 PDF — OCR 실수 6 for 8 — OCR 신뢰도 출력을 사용하고 저신뢰 셀을 수동으로 다시 스캔합니다.
함께 쓰기: filesystem

다운스트림 인덱싱을 위한 혼합 형식 문서 폴더 수집

👤 헝겊 파이프라인을 만드는 엔지니어 ⏱ ~30 min intermediate

언제 쓸까: Client drops you a zip with PDFs, Word docs, PowerPoints, and you need clean text for embedding.

사전 조건
  • Filesystem MCP scoped to the folder — Launch fs MCP with the ingest dir as root
흐름
  1. Inventory
    List every file under /ingest/. For each, call kreuzberg.detect_format and report.✓ 복사됨
    → Format-per-file table
  2. Bulk extract
    For each file, extract text + metadata. Write cleaned .txt next to the original and a manifest.json with metadata.✓ 복사됨
    → All files processed; manifest contains every entry
  3. Quality check
    List every file where extraction returned <100 chars — those are likely scanned or corrupt. Re-run with OCR forced.✓ 복사됨
    → Low-content files identified and retried

결과: A folder of cleaned text files ready for embedding, with a metadata manifest.

함정
  • Encrypted PDF — Kreuzberg returns an error — decrypt with qpdf or ask for the unlocked copy
함께 쓰기: filesystem · memory

조합

다른 MCP와 조합해 10배 효율

kreuzberg + filesystem

Walk a folder and extract every doc in place

For each PDF under /docs, extract text and save as .md next to it.✓ 복사됨
kreuzberg + memory

Ingest extracted content into a knowledge graph

Extract /contracts/*.pdf and store key terms in memory for cross-doc querying.✓ 복사됨

도구

이 MCP가 노출하는 것

도구입력언제 호출비용
extract_text path: str, ocr?: bool Primary extraction call free
extract_metadata path: str Just want metadata without body text free
extract_tables path: str Table-focused extraction free
detect_format path: str Confirm format before extraction free

비용 및 제한

운영 비용

API 쿼터
Unlimited — local
호출당 토큰
Proportional to doc size; a 20-page PDF ≈ 8k tokens of output
금액
Free (open source)
Use extract_metadata first on large files to avoid processing irrelevant ones

보안

권한, 시크릿, 파급범위

자격 증명 저장: None for local mode
데이터 외부 송신: None — all processing is local

문제 해결

자주 발생하는 오류와 해결

ModuleNotFoundError: tesseract

Install Tesseract system binary: brew install tesseract / apt install tesseract-ocr

확인: `tesseract --version`
Empty output on PDF

Likely image-only PDF — re-run with ocr=true

확인: Check output.metadata.has_text_layer
XLSX tables come out jumbled

Pass sheet name explicitly: tool supports sheet arg

대안

Kreuzberg 다른 것과 비교

대안언제 쓰나단점/장점
markdownify-mcpYou want a lighter, Node-based converter without OCRFewer formats, no table preservation
Unstructured.ioYou need enterprise PDF parsing and accept the cloud costPaid; cloud-hosted

더 보기

리소스

📖 GitHub에서 공식 README 읽기

🐙 열린 이슈 보기

🔍 400+ MCP 서버 및 Skills 전체 보기