/ 디렉터리 / 플레이그라운드 / WebClaw
● 커뮤니티 0xMassi ⚡ 바로 사용

WebClaw

제작: 0xMassi · 0xMassi/webclaw

Rust 기반의 빠른 로컬 스크래핑 및 구조화 추출 — 서드파티로 URL을 보내지 않고 페이지를 가져와 정제된 markdown과 구조화된 필드를 얻습니다.

WebClaw는 로컬 우선 웹 콘텐츠 추출기입니다: 단일 Rust 바이너리로 스크래핑, 크롤링, 가독성 파싱, 구조화 필드 추출을 모두 수행합니다. 페이지가 SaaS 스크래퍼를 거치지 않게 하고 싶을 때 사용하세요.

왜 쓰나요

핵심 기능

라이브 데모

실제 사용 모습

준비됨

설치

클라이언트 선택

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config 열기. 저장 후 앱 재시작.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor는 Claude Desktop과 동일한 mcpServers 스키마 사용. 프로젝트 설정이 전역보다 우선.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cline 사이드바의 MCP Servers 아이콘 클릭 후 "Edit Configuration" 선택.

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Claude Desktop과 같은 형식. Windsurf 재시작 후 적용.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

Continue는 맵이 아닌 서버 오브젝트 배열 사용.

~/.config/zed/settings.json
{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

context_servers에 추가. 저장 시 Zed가 핫 리로드.

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

한 줄 명령. claude mcp list로 확인, claude mcp remove로 제거.

사용 사례

실전 활용법: WebClaw

SaaS에 URL을 노출하지 않고 문서 사이트 스크래핑

👤 개발자 ⏱ ~15 min intermediate

언제 쓸까: NDA나 컴플라이언스로 인해 SaaS 스크래퍼 사용이 제한될 때.

흐름
  1. 실행
    webclaw fetch https://internal-docs.corp/x✓ 복사됨
    → Markdown 반환됨
  2. 반복
    Claude가 추출을 정제합니다✓ 복사됨
    → 정제된 텍스트

결과: 서드파티 스크래퍼 없이 Claude가 페이지 콘텐츠를 사용 가능.

조합

다른 MCP와 조합해 10배 효율

webclaw-mcp + filesystem

추출된 markdown을 다운스트림 RAG용으로 저장

webclaw-mcp와 filesystem 조합: 추출된 markdown을 다운스트림 RAG용으로 저장✓ 복사됨

도구

이 MCP가 노출하는 것

도구입력언제 호출비용
fetch (문서 참조) URL을 정제된 markdown으로 가져오기 호출 1회
extract (문서 참조) 스키마를 적용하여 구조화 필드 추출 호출 1회
crawl (문서 참조) 깊이 제한으로 사이트 크롤링 호출 1회

비용 및 제한

운영 비용

API 쿼터
로컬 CPU
호출당 토큰
페이지 크기
금액
무료 OSS
--readability 사용; 원시 HTML은 token을 낭비합니다

보안

권한, 시크릿, 파급범위

자격 증명 저장: 없음
데이터 외부 송신: fetch하는 사이트로 전송
절대 부여 금지: scrape paywalled / login-required content as agent

문제 해결

자주 발생하는 오류와 해결

사이트에 의해 차단됨

자신의 사이트에서만 --respect-robots false 시도

대안

WebClaw 다른 것과 비교

대안언제 쓰나단점/장점
firecrawl-mcp관리형 SaaS를 원할 때페이지가 Firecrawl을 거침

더 보기

리소스

📖 GitHub에서 공식 README 읽기

🐙 열린 이슈 보기

🔍 400+ MCP 서버 및 Skills 전체 보기