抓取文档站点,不向 SaaS 泄露 URL
何时使用: 保密协议或合规要求限制使用 SaaS 爬虫。
步骤
-
运行webclaw fetch https://internal-docs.corp/x✓ 已复制→ Markdown 返回
-
迭代Claude refines extraction✓ 已复制→ 干净的文本
结果: 页面内容可供 Claude 使用,无需经过第三方爬虫。
作者 0xMassi · 0xMassi/webclaw
Rust 极速本地抓取与结构化提取——拉取页面、获得清洁 Markdown 和结构化字段,无需将 URL 发送给第三方。
WebClaw 是本地优先的网页内容提取工具:抓取、爬取、Readability 解析、结构化字段提取,全部打包在单一 Rust 二进制中。适合不希望页面经过 SaaS 爬虫的场景。
%APPDATA%\Claude\claude_desktop_config.json{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。
{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。
{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
点击 Cline 侧栏中的 MCP Servers 图标,然后选 "Edit Configuration"。
{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
格式与 Claude Desktop 相同。重启 Windsurf 生效。
{
"mcpServers": [
{
"name": "webclaw-mcp",
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
]
}
Continue 使用服务器对象数组,而非映射。
{
"context_servers": {
"webclaw-mcp": {
"command": {
"path": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
}
加入 context_servers。Zed 保存后热重载。
claude mcp add webclaw-mcp -- npx -y webclaw-mcp
一行命令搞定。用 claude mcp list 验证,claude mcp remove 卸载。
何时使用: 保密协议或合规要求限制使用 SaaS 爬虫。
结果: 页面内容可供 Claude 使用,无需经过第三方爬虫。
将提取的 Markdown 保存为下游 RAG 数据
| 工具 | 输入参数 | 何时调用 | 成本 |
|---|---|---|---|
| fetch | (见文档) | 将 URL 内容以清洁 Markdown 形式拉取 | 1 次调用 |
| extract | (见文档) | 应用 schema 提取结构化字段 | 1 次调用 |
| crawl | (见文档) | 带深度限制地爬取站点 | 1 次调用 |
被站点拦截仅在你自己的站点上尝试 --respect-robots false
| 替代方案 | 何时用它替代 | 权衡 |
|---|---|---|
| firecrawl-mcp | 你需要托管 SaaS 方案 | 页面会经过 Firecrawl |