/ 目录 / 演练场 / WebClaw
● 社区 0xMassi ⚡ 即开即用

WebClaw

作者 0xMassi · 0xMassi/webclaw

Rust 极速本地抓取与结构化提取——拉取页面、获得清洁 Markdown 和结构化字段,无需将 URL 发送给第三方。

WebClaw 是本地优先的网页内容提取工具:抓取、爬取、Readability 解析、结构化字段提取,全部打包在单一 Rust 二进制中。适合不希望页面经过 SaaS 爬虫的场景。

为什么要用

核心特性

实时演示

实际使用效果

就绪

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标,然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

Continue 使用服务器对象数组,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

一行命令搞定。用 claude mcp list 验证,claude mcp remove 卸载。

使用场景

实战用法: WebClaw

抓取文档站点,不向 SaaS 泄露 URL

👤 开发者 ⏱ ~15 min intermediate

何时使用: 保密协议或合规要求限制使用 SaaS 爬虫。

步骤
  1. 运行
    webclaw fetch https://internal-docs.corp/x✓ 已复制
    → Markdown 返回
  2. 迭代
    Claude refines extraction✓ 已复制
    → 干净的文本

结果: 页面内容可供 Claude 使用,无需经过第三方爬虫。

组合

与其他 MCP 搭配,撬动十倍杠杆

webclaw-mcp + filesystem

将提取的 Markdown 保存为下游 RAG 数据

Combine webclaw-mcp with filesystem: Save extracted markdown for downstream RAG✓ 已复制

工具

此 MCP 暴露的能力

工具输入参数何时调用成本
fetch (见文档) 将 URL 内容以清洁 Markdown 形式拉取 1 次调用
extract (见文档) 应用 schema 提取结构化字段 1 次调用
crawl (见文档) 带深度限制地爬取站点 1 次调用

成本与限制

运行它的成本

API 配额
本地 CPU 资源
每次调用 Token 数
页面级别大小
费用
免费开源
提示
使用 --readability;原始 HTML 会消耗大量 token

安全

权限、密钥、影响范围

凭据存储:
数据出站: 取决于你抓取的目标

故障排查

常见错误与修复

被站点拦截

仅在你自己的站点上尝试 --respect-robots false

替代方案

WebClaw 对比其他方案

替代方案何时用它替代权衡
firecrawl-mcp你需要托管 SaaS 方案页面会经过 Firecrawl

更多

资源

📖 阅读 GitHub 上的官方 README

🐙 查看未解决的 issue

🔍 浏览全部 400+ MCP 服务器和 Skills