Autoresearch (Karpathy-style) (Claude Skill) — Anwendungsfälle, Installieren & Live-Demo

Warum nutzen

Hauptfunktionen

Ziel + Verifier-Abstraktion — funktioniert für jedes messbare Ziel
Budget-Controls (max. Iterationen, max. Token, Zeit)
Keep/Discard-Log + automatisches Rollback bei Regressionen
Austauschbare Verifier: Metrik, Testsuite, LLM-Richter
Markdown-Trace jeder Iteration zur Inspektion
Kostenlos, open

Live-Demo

In der Praxis

bereit

Installieren

Wählen Sie Ihren Client

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Öffne Claude Desktop → Settings → Developer → Edit Config. Nach dem Speichern neu starten.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Cursor nutzt das gleiche mcpServers-Schema wie Claude Desktop. Projektkonfiguration schlägt die globale.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Klicken Sie auf das MCP-Servers-Symbol in der Cline-Seitenleiste, dann "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Gleiche Struktur wie Claude Desktop. Windsurf neu starten zum Übernehmen.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "autoresearch-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ]
    }
  ]
}

Continue nutzt ein Array von Serverobjekten statt einer Map.

~/.config/zed/settings.json

{
  "context_servers": {
    "autoresearch-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/uditgoenka/autoresearch",
          "~/.claude/skills/autoresearch"
        ]
      }
    }
  }
}

In context_servers hinzufügen. Zed lädt beim Speichern neu.

claude mcp add autoresearch-skill -- git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch

Einzeiler. Prüfen mit claude mcp list. Entfernen mit claude mcp remove.

Anwendungsfälle

Praxisnahe Nutzung: Autoresearch (Karpathy-style)

Einen System-Prompt iterativ gegen einen Benchmark optimieren

👤 AI-Engineers beim Prompt-Tuning ⏱ ~90 min advanced

Wann einsetzen: Du hast einen Prompt, einen Benchmark und die Geduld für eine Schleife.

Voraussetzungen

Skill installiert — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
Benchmark mit Score-Funktion — /bench/run.sh, das einen Score auf stdout ausgibt

Ablauf

Ziel formulieren

Use autoresearch. Goal: maximize score from /bench/run.sh on prompt at /prompts/system.md. Budget 30 iterations.✓ Kopiert

→ Schleife startet; erster Vorschlag gemacht
Trace beobachten

Show me iterations 5–10 with deltas.✓ Kopiert

→ Trace mit Score pro Iteration; Behalten/Verwerfen markiert
Frühzeitig stoppen

If 3 consecutive iterations fail to improve > 1%, stop and report best.✓ Kopiert

→ Konvergenz-Guard löst aus; bester Prompt berichtet

Ergebnis: Besserer Prompt, mit einem erklärenden Trace.

Fallstricke

Verifier ist austricksbar — Score steigt ohne Qualität — Einen Sanity-Check-Verifier hinzufügen (LLM-Richter oder Held-out-Set)

Kombinieren mit: filesystem

Durch Auto-Iteration 20% Performance aus einer Hot-Function herausholen

👤 Backend-Entwickler mit Profil-Daten ⏱ ~120 min advanced

Wann einsetzen: Du weißt, welche Funktion langsam ist; du möchtest, dass Claude ein schnelleres Äquivalent findet.

Ablauf

Definieren

Goal: minimize wall-time of /bench/perf.sh which exercises foo(). Constraint: tests must keep passing.✓ Kopiert

→ Schleife startet; Baseline aufgenommen
Iterieren

Run 20 iterations. Show the top 3 improvements at the end.✓ Kopiert

→ 3 Kandidaten-Refactors mit gemessenem Speedup

Ergebnis: Konkreter Speedup, validiert.

Fallstricke

Iterationen führen subtile Korrektheitsprobleme ein, die Tests nicht erkennen — Property-Based-Tests als Verifier neben den Unit-Tests hinzufügen

Kombinieren mit: github

Landingpage-Copy automatisch gegen einen CTR-Richter iterieren

👤 Marketer, die Content-Tests durchführen ⏱ ~60 min intermediate

Wann einsetzen: Du hast ein CTR-Ziel (oder einen Richter-Prompt, der eines simuliert) und Zeit zum Iterieren.

Ablauf

Richter einrichten

Goal: maximize judge_score on /copy/headline.md. Judge prompt: 'rate likelihood a Series-B SaaS founder clicks this headline'.✓ Kopiert

→ Richter-Baseline bewertet; Schleife startet
Iterieren

Run 15 iterations; keep top 3 distinct candidates.✓ Kopiert

→ Top 3 verschiedene Headlines

Ergebnis: 3 Kandidaten-Headlines für menschliches Review.

Fallstricke

Richter hat eine starke Stilpräferenz, die nichts mit Klickbarkeit zu tun hat — Richter an eine Rubrik-Datei mit expliziten Kriterien binden

Kombinationen

Mit anderen MCPs für 10-fache Wirkung

autoresearch-skill + filesystem

Iterations-Traces zur Inspektion persistieren

autoresearch-skill + github

Einen PR mit dem Gewinner-Kandidaten öffnen

Werkzeuge

Was dieses MCP bereitstellt

Werkzeug	Eingaben	Wann aufrufen	Kosten
loop	goal, verifier, max_iter, budget_tokens?	Closed-Loop-Optimierung	Variabel — durch Budget begrenzt
trace	loop_id?	Einen Lauf inspizieren	0
rollback	to_iteration	Schleife ist entgleist	0

Kosten & Limits

Was der Betrieb kostet

API-Kontingent: Durch dein LLM begrenzt
Tokens pro Aufruf: Schwer — ein vollständiger Loop kann 100k+ Token sein
Kosten in €: Kostenlos; LLM-Kosten liegen bei dir
Tipp: Immer max_iter und budget_tokens setzen — offene Loops verbrennen Geld

Sicherheit

Rechte, Secrets, Reichweite

Credential-Speicherung: Keine

Datenabfluss: Durch deinen LLM-Provider begrenzt

Loops können teuer sein — niemals ohne Budget betreiben

Fehlerbehebung

Häufige Fehler und Lösungen

Loop feststeckend — gleicher Vorschlag bei jeder Iteration

Exploration-Temperatur im Proposer erhöhen; oder mit verschiedenen Kandidaten seeden

Verifier schlägt inkonsistent fehl

Verifier-Flakiness macht den Loop ungültig — Seeds festlegen, Verifikation N=3 mal pro Iteration wiederholen

Budget erschöpft vor Konvergenz

Trace inspizieren — wenn monotone Gewinne weiterhin anhalten, Budget erhöhen; andernfalls ist Verifier oder Proposer der Engpass

Alternativen

Autoresearch (Karpathy-style) vs. andere

Alternative	Wann stattdessen	Kompromiss
wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)	Du möchtest async ML-Research-Loops über Nacht speziell	ARIS fokussiert auf ML; Autoresearch ist allgemein
Manuelles A/B mit geskripteter Iteration	Ziel ist klein und einmalig	Skill entfernt Orchestrierungs-Overhead

Mehr

Ressourcen

📖 Offizielle README auf GitHub lesen

🐙 Offene Issues ansehen

🔍 Alle 400+ MCP-Server und Skills durchsuchen