/ Annuaire / Playground / WebClaw
● Communauté 0xMassi ⚡ Instantané

WebClaw

par 0xMassi · 0xMassi/webclaw

Scraping local ultra-rapide en Rust et extraction structurée — récupérez une page, obtenez du markdown nettoyé + des champs structurés sans envoyer l'URL à un tiers.

WebClaw est un extracteur de contenu web local-first : scraping, crawling, parsing readability, extraction de champs structurés, le tout dans un binaire Rust unique. Utilisez-le quand vous ne souhaitez pas que les pages transitent par un scraper SaaS.

Pourquoi l'utiliser

Fonctionnalités clés

Démo en direct

Aperçu en pratique

prêt

Installer

Choisissez votre client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Ouvrez Claude Desktop → Settings → Developer → Edit Config. Redémarrez après avoir enregistré.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cursor utilise le même schéma mcpServers que Claude Desktop. La config projet l'emporte sur la globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Cliquez sur l'icône MCP Servers dans la barre latérale Cline, puis "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "webclaw-mcp": {
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  }
}

Même format que Claude Desktop. Redémarrez Windsurf pour appliquer.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "webclaw-mcp",
      "command": "npx",
      "args": [
        "-y",
        "webclaw-mcp"
      ]
    }
  ]
}

Continue utilise un tableau d'objets serveur plutôt qu'une map.

~/.config/zed/settings.json
{
  "context_servers": {
    "webclaw-mcp": {
      "command": {
        "path": "npx",
        "args": [
          "-y",
          "webclaw-mcp"
        ]
      }
    }
  }
}

Ajoutez dans context_servers. Zed recharge à chaud à la sauvegarde.

claude mcp add webclaw-mcp -- npx -y webclaw-mcp

Une seule ligne. Vérifiez avec claude mcp list. Supprimez avec claude mcp remove.

Cas d'usage

Usages concrets : WebClaw

Scraper un site de documentation sans fuiter les URLs vers un SaaS

👤 Développeurs ⏱ ~15 min intermediate

Quand l'utiliser : Les contraintes NDA ou de conformité interdisent les scrapers SaaS.

Déroulement
  1. Exécuter
    webclaw fetch https://internal-docs.corp/x✓ Copié
    → Markdown retourné
  2. Affiner
    Claude affine l'extraction✓ Copié
    → Texte propre

Résultat : Contenu de page disponible pour Claude sans scraper tiers.

Combinaisons

Associez-le à d'autres MCPs pour un effet X10

webclaw-mcp + filesystem

Sauvegarder le markdown extrait pour un RAG en aval

Combiner webclaw-mcp avec filesystem : sauvegarder le markdown extrait pour un RAG en aval✓ Copié

Outils

Ce que ce MCP expose

OutilEntréesQuand appelerCoût
fetch (voir la documentation) Récupérer une URL en markdown nettoyé 1 appel
extract (voir la documentation) Appliquer un schéma pour extraire des champs structurés 1 appel
crawl (voir la documentation) Parcourir un site avec limites de profondeur 1 appel

Coût et limites

Coût d'exécution

Quota d'API
CPU local
Tokens par appel
Taille d'une page
Monétaire
OSS gratuit
Astuce
Utilisez --readability ; le HTML brut consomme beaucoup de tokens

Sécurité

Permissions, secrets, portée

Stockage des identifiants : Aucune
Sortie de données : Là où vous faites des requêtes
Ne jamais accorder : scrape paywalled / login-required content as agent

Dépannage

Erreurs courantes et correctifs

Bloqué par le site

Utilisez --respect-robots false uniquement sur vos propres sites

Alternatives

WebClaw vs autres

AlternativeQuand l'utiliserCompromis
firecrawl-mcpVous souhaitez un SaaS géréLes pages transitent par Firecrawl

Plus

Ressources

📖 Lire le README officiel sur GitHub

🐙 Voir les issues ouvertes

🔍 Parcourir les 400+ serveurs MCP et Skills