/ ディレクトリ / プレイグラウンド / WebClaw
● コミュニティ 0xMassi ⚡ 即起動

WebClaw

作者 0xMassi · 0xMassi/webclaw

Rust製の高速ローカルスクレイピングと構造化抽出 — URLを取得してクリーンなmarkdownと構造化フィールドを得る、サードパーティへのURL送信なし。

WebClawはローカルファーストのWebコンテンツ抽出ツールです:スクレイピング、クロール、readability解析、構造化フィールド抽出をすべて1つのRustバイナリで実行します。SaaSスクレイパーにページを通したくない場合に役立ちます。

なぜ使うのか

主な機能

ライブデモ

実際の動作

準備完了

インストール

クライアントを選択

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Claude Desktop → Settings → Developer → Edit Config を開く。保存後、アプリを再起動。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor は Claude Desktop と同じ mcpServers スキーマを使用。プロジェクト設定はグローバルより優先。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cline サイドバーの MCP Servers アイコンをクリックし、"Edit Configuration" を選択。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Claude Desktop と同じ形式。Windsurf を再起動して反映。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

Continue はマップではなくサーバーオブジェクトの配列を使用。

~/.config/zed/settings.json
{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

context_servers に追加。保存時に Zed がホットリロード。

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

ワンライナー。claude mcp list で確認、claude mcp remove で削除。

ユースケース

実用的な使い方: WebClaw

URLをSaaSに漏洩させずにドキュメントサイトをスクレイプする

👤 開発者 ⏱ ~15 min intermediate

使うタイミング: NDCや法令遵守によりSaaSスクレイパーが制限されている場合。

フロー
  1. 実行
    webclaw fetch https://internal-docs.corp/x✓ コピーしました
    → markdownが返ってきている
  2. 反復
    Claudeが抽出を精緻化します✓ コピーしました
    → クリーンなテキスト

結果: サードパーティのスクレイパーを経由せずにClaudeがページ内容を利用できるようになります。

組み合わせ

他のMCPと組み合わせて10倍の力を

webclaw-mcp + filesystem

抽出したmarkdownをダウンストリームのRAG向けに保存する

webclaw-mcpとfilesystemを組み合わせる:抽出したmarkdownをダウンストリームのRAG向けに保存する✓ コピーしました

ツール

このMCPが提供する機能

ツール入力呼び出すタイミングコスト
fetch (ドキュメント参照) URLをクリーンなmarkdownとして取得する 1 call
extract (ドキュメント参照) スキーマを適用して構造化フィールドを抽出する 1 call
crawl (ドキュメント参照) 深さ制限付きでサイトをクロールする 1 call

コストと制限

運用コスト

APIクォータ
ローカルCPU
呼び出しあたりのトークン
ページサイズ
金額
OSS無料
ヒント
--readabilityを使う;生のHTMLはtokenを大量に消費します

セキュリティ

権限、シークレット、影響範囲

認証情報の保管: なし
データ送信先: fetchした先に依存
絶対に付与しない: エージェントとしてペイウォール/ログイン必須のコンテンツをスクレイプすること

トラブルシューティング

よくあるエラーと対処法

サイトにブロックされる

自分のサイトに限り --respect-robots false を試してください

代替案

WebClaw 他との比較

代替案代わりに使う場面トレードオフ
firecrawl-mcpマネージドSaaSが必要な場合ページがFirecrawlを経由する

その他

リソース

📖 GitHub の公式 README を読む

🐙 オープンな issue を見る

🔍 400以上のMCPサーバーとSkillsを見る