Kreuzberg MCP — 설치 & 라이브 데모

왜 쓰나요

핵심 기능

97개 이상의 형식 — PDF, DOCX, XLSX, PPTX, 이미지, HTML, EPUB, RTF
러스트 코어 — 빠르고 낮은 메모리 공간 vs. 파이썬 대안
스캔 문서용 OCR 내장 (Tesseract/PaddleOCR)
구조 보존 — 표를 감점, 제목, 목록으로 유지
메타데이터 추출: 작성자, 작성일, 단어 수, 언어

라이브 데모

실제 사용 모습

kreuzberg.replay ▶ 준비됨

0/0

설치

클라이언트 선택

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config 열기. 저장 후 앱 재시작.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Cursor는 Claude Desktop과 동일한 mcpServers 스키마 사용. 프로젝트 설정이 전역보다 우선.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Cline 사이드바의 MCP Servers 아이콘 클릭 후 "Edit Configuration" 선택.

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "kreuzberg": {
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  }
}

Claude Desktop과 같은 형식. Windsurf 재시작 후 적용.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "kreuzberg",
      "command": "uvx",
      "args": [
        "kreuzberg-mcp"
      ]
    }
  ]
}

Continue는 맵이 아닌 서버 오브젝트 배열 사용.

~/.config/zed/settings.json

{
  "context_servers": {
    "kreuzberg": {
      "command": {
        "path": "uvx",
        "args": [
          "kreuzberg-mcp"
        ]
      }
    }
  }
}

context_servers에 추가. 저장 시 Zed가 핫 리로드.

claude mcp add kreuzberg -- uvx kreuzberg-mcp

한 줄 명령. claude mcp list로 확인, claude mcp remove로 제거.

사용 사례

실전 활용법: Kreuzberg

지저분한 PDF에서 깨끗한 감점으로 표 추출

👤 보고서 PDF를 다루는 분석가 ⏱ ~10 min beginner

언제 쓸까: Pdftotext가 맹글링되는 표가 있는 PDF가 있으며 다시 입력하고 싶지 않습니다.

사전 조건

MCP 설치됨 — uvx kreuzberg-mcp — 또는 claude mcp add를 통해 추가

흐름

탈출

Kreuzberg를 사용하여/docs/2025-annual-report.pdf를 추출합니다. 표는 감점, 본문은 별도로 주세요.✓ 복사됨

→ 보존된 헤더가 있는 감점 테이블 정리
인증하기

"세그먼트별 수익" 테이블의 경우 열 합계를 조정합니다. 잘못된 OCR 읽음에 플래그를 지정합니다.✓ 복사됨

→ 플래그가 지정된 셀을 사용한 산술 검사

결과: 재작업 없이 문서에 붙여넣을 수 있는 마크다운 표입니다.

함정

스캔한 PDF — OCR 실수 6 for 8 — OCR 신뢰도 출력을 사용하고 저신뢰 셀을 수동으로 다시 스캔합니다.

함께 쓰기: 파일 시스템

다운스트림 인덱싱을 위한 혼합 형식 문서 폴더 수집

👤 헝겊 파이프라인을 만드는 엔지니어 ⏱ ~30 min intermediate

언제 쓸까: 클라이언트는 PDF, Word 문서, PowerPoint가 포함된 zip을 제공하며 포함하려면 깨끗한 텍스트가 필요합니다.

사전 조건

폴더로 범위가 지정된 파일 시스템 MCP — 수집 디렉토리를 루트로 사용하여 fs MCP를 시작하십시오.

흐름

목록

List every file under /ingest/. For each, call kreuzberg.detect_format and report.✓ 복사됨

→ Format-per-file table
벌크추출물

For each file, extract text + metadata. Write cleaned .txt next to the original and a manifest.json with metadata.✓ 복사됨

→ All files processed; manifest contains every entry
품질검사

List every file where extraction returned <100 chars — those are likely scanned or corrupt. Re-run with OCR forced.✓ 복사됨

→ Low-content files identified and retried

결과: 메타데이터 매니페스트와 함께 포함할 준비가 된 정리된 텍스트 파일의 폴더입니다.

함정

Encrypted PDF — Kreuzberg returns an error — decrypt with qpdf or ask for the unlocked copy

함께 쓰기: 파일 시스템 · 메모리

조합

다른 MCP와 조합해 10배 효율

kreuzberg + filesystem

Walk a folder and extract every doc in place

/docs 아래의 각 PDF에 대해 텍스트를 추출하고 그 옆에 .md로 저장합니다.✓ 복사됨

kreuzberg + memory

Ingest extracted content into a knowledge graph

/contracts/*.pdf를 추출하고 문서 간 쿼리를 위해 주요 용어를 메모리에 저장합니다.✓ 복사됨

도구

이 MCP가 노출하는 것

도구	입력	언제 호출	비용
extract_text	path: str, ocr?: bool	기본 추출 호출	free
extract_metadata	path: str	본문 없이 메타데이터만 원함	free
extract_tables	path: str	테이블 중심 추출	free
detect_format	path: str	추출 전 형식 확인	free

비용 및 제한

운영 비용

API 쿼터: 무제한 — 지역
호출당 토큰: 문서 크기에 비례합니다. 20페이지 PDF ≒ 8,000개의 출력 토큰
금액: 무료(오픈소스)
팁: 관련 없는 파일 처리를 방지하려면 대용량 파일에 extract_metadata를 먼저 사용하세요.

보안

권한, 시크릿, 파급범위

자격 증명 저장: 로컬 모드에는 없음

데이터 외부 송신: 없음 - 모든 처리가 로컬에서 수행됩니다.

잘못된 형식의 PDF는 파서 엣지 케이스를 유발할 수 있습니다. 신뢰할 수 없는 업로드를 처리하는 경우 MCP를 샌드박스 처리합니다.

문제 해결

자주 발생하는 오류와 해결

ModuleNotFoundError: tesseract

Tesseract 시스템 바이너리 설치: brew install tesseract / apt install tesseract-ocr

확인: `tesseract --version`

PDF의 빈 출력

이미지 전용 PDF일 가능성이 높음 — ocr=true로 다시 실행

확인: Check output.metadata.has_text_layer

XLSX 테이블이 뒤죽박죽으로 나옵니다.

명시적으로 패스 시트 이름: 도구는 sheet 인수를 지원합니다.

대안

Kreuzberg 다른 것과 비교

대안	언제 쓰나	단점/장점
markdownify-mcp	OCR이 없는 더 가벼운 노드 기반 변환기를 원합니다.	더 적은 형식, 테이블 보존 없음
Unstructured.io	기업용 PDF 구문 분석이 필요하고 클라우드 비용을 수용합니다.	유급의; 클라우드 호스팅

Kreuzberg

왜 쓰나요

핵심 기능

라이브 데모

실제 사용 모습

설치

클라이언트 선택

사용 사례

실전 활용법: Kreuzberg

지저분한 PDF에서 깨끗한 감점으로 표 추출

사전 조건

흐름

함정

다운스트림 인덱싱을 위한 혼합 형식 문서 폴더 수집

사전 조건

흐름

함정

조합

다른 MCP와 조합해 10배 효율

도구

이 MCP가 노출하는 것

비용 및 제한

운영 비용

보안

권한, 시크릿, 파급범위

문제 해결

자주 발생하는 오류와 해결

대안

Kreuzberg 다른 것과 비교

더 보기

리소스