不洩漏 URL 給 SaaS 的情況下抓取文件站
何時使用: NDA 或合規要求限制使用 SaaS 抓取器。
步驟
-
執行webclaw fetch https://internal-docs.corp/x✓ 已複製→ 回傳 markdown
-
迭代Claude 精煉提取結果✓ 已複製→ 乾淨的文字
結果: 不透過第三方抓取器,頁面內容即可供 Claude 使用。
作者 0xMassi · 0xMassi/webclaw
Rust 極速本機抓取與結構化提取——取得頁面,輸出乾淨的 markdown 與結構化欄位,無需將 URL 送往第三方。
WebClaw 是本機優先的網頁內容提取器:抓取、爬取、解析可讀性、提取結構化欄位,全部在單一 Rust 二進位檔中完成。適合不希望頁面透過 SaaS 抓取器的情境。
%APPDATA%\Claude\claude_desktop_config.json{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
開啟 Claude Desktop → Settings → Developer → Edit Config。儲存後重啟應用。
{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
Cursor 使用與 Claude Desktop 相同的 mcpServers 格式。專案級設定優先於全域。
{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
點擊 Cline 側欄中的 MCP Servers 圖示,然後選 "Edit Configuration"。
{
"mcpServers": {
"webclaw-mcp": {
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
格式與 Claude Desktop 相同。重啟 Windsurf 生效。
{
"mcpServers": [
{
"name": "webclaw-mcp",
"command": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
]
}
Continue 使用伺服器物件陣列,而非映射。
{
"context_servers": {
"webclaw-mcp": {
"command": {
"path": "npx",
"args": [
"-y",
"webclaw-mcp"
]
}
}
}
}
加入 context_servers。Zed 儲存後熱重載。
claude mcp add webclaw-mcp -- npx -y webclaw-mcp
一行命令搞定。用 claude mcp list 驗證,claude mcp remove 移除。
何時使用: NDA 或合規要求限制使用 SaaS 抓取器。
結果: 不透過第三方抓取器,頁面內容即可供 Claude 使用。
儲存提取的 markdown 以供下游 RAG 使用
| 工具 | 輸入參數 | 何時呼叫 | 成本 |
|---|---|---|---|
| fetch | (詳見文件) | 以乾淨的 markdown 格式取得一個 URL | 1 次呼叫 |
| extract | (詳見文件) | 套用 schema 提取結構化欄位 | 1 次呼叫 |
| crawl | (詳見文件) | 以深度限制爬取網站 | 1 次呼叫 |
被網站封鎖僅在自己的網站上嘗試 --respect-robots false
| 替代方案 | 何時用它替代 | 權衡 |
|---|---|---|
| firecrawl-mcp | 你需要 SaaS 託管服務 | 頁面會經過 Firecrawl |