/ Verzeichnis / Playground / Autoresearch (Karpathy-style)
● Community uditgoenka ⚡ Sofort

Autoresearch (Karpathy-style)

von uditgoenka · uditgoenka/autoresearch

Ziel rein, Ergebnisse raus — Claude schlägt eine Änderung vor, führt sie aus, misst, behält Gewinne, verwirft Verluste, iteriert. Andrej Karpathys Autoresearch-Loop, als Skill verpackt.

Autoresearch verwandelt Claude in einen geschlossenen Schleifenforscher: Du gibst ein Ziel und einen Verifier an (eine Metrik, einen Test oder einen Richter-Prompt), und der Skill iteriert Modifizieren → Verifizieren → Behalten/Verwerfen mit Budget-Controls. Inspiriert von Karpathys Autoresearch-Posts. Nützlich, wenn das Ziel messbar ist, der Suchraum aber zu groß ist, um ihn im Voraus zu planen — Prompt-Tuning, Hyperparameter-Suche, Refactor-für-Perf, Copy-A/B.

Warum nutzen

Hauptfunktionen

Live-Demo

In der Praxis

bereit

Installieren

Wählen Sie Ihren Client

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Öffne Claude Desktop → Settings → Developer → Edit Config. Nach dem Speichern neu starten.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Cursor nutzt das gleiche mcpServers-Schema wie Claude Desktop. Projektkonfiguration schlägt die globale.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Klicken Sie auf das MCP-Servers-Symbol in der Cline-Seitenleiste, dann "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Gleiche Struktur wie Claude Desktop. Windsurf neu starten zum Übernehmen.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "autoresearch-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ]
    }
  ]
}

Continue nutzt ein Array von Serverobjekten statt einer Map.

~/.config/zed/settings.json
{
  "context_servers": {
    "autoresearch-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/uditgoenka/autoresearch",
          "~/.claude/skills/autoresearch"
        ]
      }
    }
  }
}

In context_servers hinzufügen. Zed lädt beim Speichern neu.

claude mcp add autoresearch-skill -- git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch

Einzeiler. Prüfen mit claude mcp list. Entfernen mit claude mcp remove.

Anwendungsfälle

Praxisnahe Nutzung: Autoresearch (Karpathy-style)

Einen System-Prompt iterativ gegen einen Benchmark optimieren

👤 AI-Engineers beim Prompt-Tuning ⏱ ~90 min advanced

Wann einsetzen: Du hast einen Prompt, einen Benchmark und die Geduld für eine Schleife.

Voraussetzungen
  • Skill installiert — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
  • Benchmark mit Score-Funktion — /bench/run.sh, das einen Score auf stdout ausgibt
Ablauf
  1. Ziel formulieren
    Use autoresearch. Goal: maximize score from /bench/run.sh on prompt at /prompts/system.md. Budget 30 iterations.✓ Kopiert
    → Schleife startet; erster Vorschlag gemacht
  2. Trace beobachten
    Show me iterations 5–10 with deltas.✓ Kopiert
    → Trace mit Score pro Iteration; Behalten/Verwerfen markiert
  3. Frühzeitig stoppen
    If 3 consecutive iterations fail to improve > 1%, stop and report best.✓ Kopiert
    → Konvergenz-Guard löst aus; bester Prompt berichtet

Ergebnis: Besserer Prompt, mit einem erklärenden Trace.

Fallstricke
  • Verifier ist austricksbar — Score steigt ohne Qualität — Einen Sanity-Check-Verifier hinzufügen (LLM-Richter oder Held-out-Set)
Kombinieren mit: filesystem

Durch Auto-Iteration 20% Performance aus einer Hot-Function herausholen

👤 Backend-Entwickler mit Profil-Daten ⏱ ~120 min advanced

Wann einsetzen: Du weißt, welche Funktion langsam ist; du möchtest, dass Claude ein schnelleres Äquivalent findet.

Ablauf
  1. Definieren
    Goal: minimize wall-time of /bench/perf.sh which exercises foo(). Constraint: tests must keep passing.✓ Kopiert
    → Schleife startet; Baseline aufgenommen
  2. Iterieren
    Run 20 iterations. Show the top 3 improvements at the end.✓ Kopiert
    → 3 Kandidaten-Refactors mit gemessenem Speedup

Ergebnis: Konkreter Speedup, validiert.

Fallstricke
  • Iterationen führen subtile Korrektheitsprobleme ein, die Tests nicht erkennen — Property-Based-Tests als Verifier neben den Unit-Tests hinzufügen
Kombinieren mit: github

Landingpage-Copy automatisch gegen einen CTR-Richter iterieren

👤 Marketer, die Content-Tests durchführen ⏱ ~60 min intermediate

Wann einsetzen: Du hast ein CTR-Ziel (oder einen Richter-Prompt, der eines simuliert) und Zeit zum Iterieren.

Ablauf
  1. Richter einrichten
    Goal: maximize judge_score on /copy/headline.md. Judge prompt: 'rate likelihood a Series-B SaaS founder clicks this headline'.✓ Kopiert
    → Richter-Baseline bewertet; Schleife startet
  2. Iterieren
    Run 15 iterations; keep top 3 distinct candidates.✓ Kopiert
    → Top 3 verschiedene Headlines

Ergebnis: 3 Kandidaten-Headlines für menschliches Review.

Fallstricke
  • Richter hat eine starke Stilpräferenz, die nichts mit Klickbarkeit zu tun hat — Richter an eine Rubrik-Datei mit expliziten Kriterien binden

Kombinationen

Mit anderen MCPs für 10-fache Wirkung

autoresearch-skill + filesystem

Iterations-Traces zur Inspektion persistieren

autoresearch-skill + github

Einen PR mit dem Gewinner-Kandidaten öffnen

Werkzeuge

Was dieses MCP bereitstellt

WerkzeugEingabenWann aufrufenKosten
loop goal, verifier, max_iter, budget_tokens? Closed-Loop-Optimierung Variabel — durch Budget begrenzt
trace loop_id? Einen Lauf inspizieren 0
rollback to_iteration Schleife ist entgleist 0

Kosten & Limits

Was der Betrieb kostet

API-Kontingent
Durch dein LLM begrenzt
Tokens pro Aufruf
Schwer — ein vollständiger Loop kann 100k+ Token sein
Kosten in €
Kostenlos; LLM-Kosten liegen bei dir
Tipp
Immer max_iter und budget_tokens setzen — offene Loops verbrennen Geld

Sicherheit

Rechte, Secrets, Reichweite

Credential-Speicherung: Keine
Datenabfluss: Durch deinen LLM-Provider begrenzt

Fehlerbehebung

Häufige Fehler und Lösungen

Loop feststeckend — gleicher Vorschlag bei jeder Iteration

Exploration-Temperatur im Proposer erhöhen; oder mit verschiedenen Kandidaten seeden

Verifier schlägt inkonsistent fehl

Verifier-Flakiness macht den Loop ungültig — Seeds festlegen, Verifikation N=3 mal pro Iteration wiederholen

Budget erschöpft vor Konvergenz

Trace inspizieren — wenn monotone Gewinne weiterhin anhalten, Budget erhöhen; andernfalls ist Verifier oder Proposer der Engpass

Alternativen

Autoresearch (Karpathy-style) vs. andere

AlternativeWann stattdessenKompromiss
wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)Du möchtest async ML-Research-Loops über Nacht speziellARIS fokussiert auf ML; Autoresearch ist allgemein
Manuelles A/B mit geskripteter IterationZiel ist klein und einmaligSkill entfernt Orchestrierungs-Overhead

Mehr

Ressourcen

📖 Offizielle README auf GitHub lesen

🐙 Offene Issues ansehen

🔍 Alle 400+ MCP-Server und Skills durchsuchen