/ 目錄 / 演練場 / WebClaw
● 社群 0xMassi ⚡ 即開即用

WebClaw

作者 0xMassi · 0xMassi/webclaw

Rust 極速本機抓取與結構化提取——取得頁面,輸出乾淨的 markdown 與結構化欄位,無需將 URL 送往第三方。

WebClaw 是本機優先的網頁內容提取器:抓取、爬取、解析可讀性、提取結構化欄位,全部在單一 Rust 二進位檔中完成。適合不希望頁面透過 SaaS 抓取器的情境。

為什麼要用

核心特性

即時演示

實際使用效果

就緒

安裝

選擇你的客戶端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

開啟 Claude Desktop → Settings → Developer → Edit Config。儲存後重啟應用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor 使用與 Claude Desktop 相同的 mcpServers 格式。專案級設定優先於全域。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

點擊 Cline 側欄中的 MCP Servers 圖示,然後選 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

格式與 Claude Desktop 相同。重啟 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

Continue 使用伺服器物件陣列,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

加入 context_servers。Zed 儲存後熱重載。

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

一行命令搞定。用 claude mcp list 驗證,claude mcp remove 移除。

使用場景

實戰用法: WebClaw

不洩漏 URL 給 SaaS 的情況下抓取文件站

👤 開發者 ⏱ ~15 min intermediate

何時使用: NDA 或合規要求限制使用 SaaS 抓取器。

步驟
  1. 執行
    webclaw fetch https://internal-docs.corp/x✓ 已複製
    → 回傳 markdown
  2. 迭代
    Claude 精煉提取結果✓ 已複製
    → 乾淨的文字

結果: 不透過第三方抓取器,頁面內容即可供 Claude 使用。

組合

與其他 MCP 搭配,撬動十倍槓桿

webclaw-mcp + filesystem

儲存提取的 markdown 以供下游 RAG 使用

結合 webclaw-mcp 與 filesystem:儲存提取的 markdown 以供下游 RAG 使用✓ 已複製

工具

此 MCP 暴露的能力

工具輸入參數何時呼叫成本
fetch (詳見文件) 以乾淨的 markdown 格式取得一個 URL 1 次呼叫
extract (詳見文件) 套用 schema 提取結構化欄位 1 次呼叫
crawl (詳見文件) 以深度限制爬取網站 1 次呼叫

成本與限制

運行它的成本

API 配額
本機 CPU
每次呼叫 Token 數
頁面大小
費用
免費開源
提示
使用 --readability;原始 HTML 會消耗大量 token

安全

權限、密鑰、影響範圍

憑證儲存:
資料出站: 取決於你的抓取目標

故障排查

常見錯誤與修復

被網站封鎖

僅在自己的網站上嘗試 --respect-robots false

替代方案

WebClaw 對比其他方案

替代方案何時用它替代權衡
firecrawl-mcp你需要 SaaS 託管服務頁面會經過 Firecrawl

更多

資源

📖 閱讀 GitHub 上的官方 README

🐙 查看未解決的 issue

🔍 瀏覽全部 400+ MCP 伺服器和 Skills