freemcplab / 目录 / 演练场 / WebClaw

← 全部服务器 ↗ GitHub

● 社区 0xMassi ⚡ 即开即用

WebClaw

Name: WebClaw MCP Server
Author: 0xMassi

作者 0xMassi · 0xMassi/webclaw

Rust 极速本地抓取与结构化提取——拉取页面、获得清洁 Markdown 和结构化字段，无需将 URL 发送给第三方。

WebClaw 是本地优先的网页内容提取工具：抓取、爬取、Readability 解析、结构化字段提取，全部打包在单一 Rust 二进制中。适合不希望页面经过 SaaS 爬虫的场景。

▶ 观看演示 📦 安装 💡 使用场景

为什么要用

核心特性

本地 Rust 二进制——无 SaaS 跳转
Readability + Markdown 输出
基于 schema 的结构化字段提取
支持深度限制的爬取
遵守 robots.txt
User-agent 轮换

实时演示

实际使用效果

就绪

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标，然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

Continue 使用服务器对象数组，而非映射。

~/.config/zed/settings.json

{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

一行命令搞定。用 claude mcp list 验证，claude mcp remove 卸载。

使用场景

实战用法： WebClaw

抓取文档站点，不向 SaaS 泄露 URL

👤 开发者 ⏱ ~15 min intermediate

何时使用： 保密协议或合规要求限制使用 SaaS 爬虫。

步骤

运行

webclaw fetch https://internal-docs.corp/x✓ 已复制

→ Markdown 返回
迭代

Claude refines extraction✓ 已复制

→ 干净的文本

结果： 页面内容可供 Claude 使用，无需经过第三方爬虫。

组合

与其他 MCP 搭配，撬动十倍杠杆

webclaw-mcp + filesystem

将提取的 Markdown 保存为下游 RAG 数据

Combine webclaw-mcp with filesystem: Save extracted markdown for downstream RAG✓ 已复制

工具

此 MCP 暴露的能力

工具	输入参数	何时调用	成本
fetch	(见文档)	将 URL 内容以清洁 Markdown 形式拉取	1 次调用
extract	(见文档)	应用 schema 提取结构化字段	1 次调用
crawl	(见文档)	带深度限制地爬取站点	1 次调用

成本与限制

运行它的成本

API 配额: 本地 CPU 资源
每次调用 Token 数: 页面级别大小
费用: 免费开源
提示: 使用 --readability；原始 HTML 会消耗大量 token

安全

权限、密钥、影响范围

凭据存储： 无

数据出站： 取决于你抓取的目标

故障排查

常见错误与修复

被站点拦截

仅在你自己的站点上尝试 --respect-robots false

替代方案

WebClaw 对比其他方案

替代方案	何时用它替代	权衡
firecrawl-mcp	你需要托管 SaaS 方案	页面会经过 Firecrawl

资源

📖 阅读 GitHub 上的官方 README

🐙 查看未解决的 issue

🔍 浏览全部 400+ MCP 服务器和 Skills