/ Diretório / Playground / WebClaw
● Comunidade 0xMassi ⚡ Instantâneo

WebClaw

por 0xMassi · 0xMassi/webclaw

Scraping local ultra-rápido em Rust com extração estruturada — recupere uma página, obtenha markdown limpo + campos estruturados sem enviar a URL para terceiros.

WebClaw é um extrator de conteúdo web local-first: scraping, crawling, parse de readability, extração de campos estruturados, tudo em um único binário Rust. Use quando você não quer que as páginas passem por um scraper SaaS.

Por que usar

Principais recursos

Demo ao vivo

Como fica na prática

pronto

Instalar

Escolha seu cliente

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Abra Claude Desktop → Settings → Developer → Edit Config. Reinicie após salvar.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor usa o mesmo esquema mcpServers que o Claude Desktop. Config de projeto vence a global.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Clique no ícone MCP Servers na barra lateral do Cline, depois "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Mesmo formato do Claude Desktop. Reinicie o Windsurf para aplicar.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

O Continue usa um array de objetos de servidor em vez de um map.

~/.config/zed/settings.json
{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

Adicione em context_servers. Zed recarrega automaticamente ao salvar.

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

Uma linha só. Verifique com claude mcp list. Remova com claude mcp remove.

Casos de uso

Usos do mundo real: WebClaw

Fazer scraping de um site de docs sem vazar URLs para SaaS

👤 Desenvolvedores ⏱ ~15 min intermediate

Quando usar: NDA ou compliance limita scrapers SaaS.

Fluxo
  1. Executar
    webclaw fetch https://internal-docs.corp/x✓ Copiado
    → Markdown retornado
  2. Iterar
    Claude refina a extração✓ Copiado
    → Texto limpo

Resultado: Conteúdo da página disponível para o Claude sem scraper de terceiros.

Combinações

Combine com outros MCPs para 10× de alavancagem

webclaw-mcp + filesystem

Salve o markdown extraído para RAG downstream

Combine webclaw-mcp com filesystem: Salve o markdown extraído para RAG downstream✓ Copiado

Ferramentas

O que este MCP expõe

FerramentaEntradasQuando chamarCusto
fetch (ver docs) Recupera uma URL como markdown limpo 1 chamada
extract (ver docs) Aplica um schema para extrair campos estruturados 1 chamada
crawl (ver docs) Percorre um site com limites de profundidade 1 chamada

Custo e limites

O que custa rodar

Cota de API
CPU local
Tokens por chamada
Tamanho de página
Monetário
OSS gratuito
Dica
Use --readability; HTML bruto queima tokens

Segurança

Permissões, segredos, alcance

Armazenamento de credenciais: Nenhum
Saída de dados: Onde quer que você busque
Nunca conceda: scrape paywalled / login-required content as agent

Solução de problemas

Erros comuns e correções

Bloqueado pelo site

Tente --respect-robots false apenas nos seus próprios sites

Alternativas

WebClaw vs. outros

AlternativaQuando usarTroca
firecrawl-mcpVocê quer SaaS gerenciadoPáginas passam pelo Firecrawl

Mais

Recursos

📖 Leia o README oficial no GitHub

🐙 Ver issues abertas

🔍 Ver todos os 400+ servidores MCP e Skills