Autoresearch (Karpathy-style) (Claude Skill) — Сценарии использования, Установка & Живое демо

Зачем использовать

Ключевые функции

Абстракция цель + верификатор — работает для любой измеримой цели
Контроль бюджета (макс. итерации, макс. токены, время)
Журнал сохранения/отбрасывания + автоматический откат при регрессиях
Подключаемые верификаторы: метрика, набор тестов, LLM-судья
Markdown-трассировка каждой итерации для проверки
Бесплатно, открытый исходный код

Живое демо

Как выглядит на практике

готово

Установка

Выберите клиент

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Откройте Claude Desktop → Settings → Developer → Edit Config. Перезапустите после сохранения.

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Cursor использует ту же схему mcpServers, что и Claude Desktop. Конфиг проекта приоритетнее глобального.

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Щёлкните значок MCP Servers на боковой панели Cline, затем "Edit Configuration".

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Тот же формат, что и Claude Desktop. Перезапустите Windsurf для применения.

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "autoresearch-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ]
    }
  ]
}

Continue использует массив объектов серверов, а не map.

~/.config/zed/settings.json

{
  "context_servers": {
    "autoresearch-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/uditgoenka/autoresearch",
          "~/.claude/skills/autoresearch"
        ]
      }
    }
  }
}

Добавьте в context_servers. Zed перезагружается автоматически.

claude mcp add autoresearch-skill -- git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch

Однострочная команда. Проверить: claude mcp list. Удалить: claude mcp remove.

Сценарии использования

Реальные сценарии: Autoresearch (Karpathy-style)

Итеративная настройка системного prompt'а по бенчмарку

👤 AI-инженеры, настраивающие prompt'ы ⏱ ~90 min advanced

Когда использовать: У вас есть prompt, бенчмарк и терпение для цикла.

Предварительные требования

Навык установлен — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
Бенчмарк с функцией оценки — /bench/run.sh выводящий оценку на stdout

Поток

Сформулировать цель

Use autoresearch. Goal: maximize score from /bench/run.sh on prompt at /prompts/system.md. Budget 30 iterations.✓ Скопировано

→ Цикл запущен; первое предложение сделано
Смотреть трассировку

Show me iterations 5–10 with deltas.✓ Скопировано

→ Трассировка с оценкой на итерацию; сохранённые/отброшенные помечены
Остановить досрочно

If 3 consecutive iterations fail to improve > 1%, stop and report best.✓ Скопировано

→ Срабатывает защита от сходимости; лучший prompt указан

Итог: Лучший prompt с трассировкой, объясняющей почему.

Подводные камни

Верификатор поддаётся «игре» — оценка растёт без улучшения качества — Добавьте верификатор-проверку работоспособности (LLM-судья или held-out набор)

Сочетать с: filesystem

Выжать 20% производительности из горячей функции через авто-итерации

👤 Backend-разработчики с профильными данными ⏱ ~120 min advanced

Когда использовать: Вы знаете, какая функция медленная; вы хотите, чтобы Claude нашёл более быстрый эквивалент.

Поток

Определить

Goal: minimize wall-time of /bench/perf.sh which exercises foo(). Constraint: tests must keep passing.✓ Скопировано

→ Цикл запущен; базовый уровень зафиксирован
Итерировать

Run 20 iterations. Show the top 3 improvements at the end.✓ Скопировано

→ 3 варианта рефакторинга с измеренным ускорением

Итог: Конкретное ускорение, проверенное.

Подводные камни

Итерации вносят тонкую проблему корректности, которую тесты не замечают — Добавьте property-based тесты как верификатор рядом с unit-тестами

Сочетать с: github

Авто-итерации текста лендинга по судье CTR

👤 Маркетологи, проводящие контентные тесты ⏱ ~60 min intermediate

Когда использовать: У вас есть цель CTR (или промпт-судья, симулирующий её) и время на итерации.

Поток

Настроить судью

Goal: maximize judge_score on /copy/headline.md. Judge prompt: 'rate likelihood a Series-B SaaS founder clicks this headline'.✓ Скопировано

→ Базовый уровень судьи оценён; цикл запущен
Итерировать

Run 15 iterations; keep top 3 distinct candidates.✓ Скопировано

→ Топ-3 различных заголовка

Итог: 3 заголовка-кандидата для человеческого ревью.

Подводные камни

Судья имеет сильное стилевое предпочтение, не связанное с кликабельностью — Привяжите судью к файлу-рубрике с явными критериями

Комбинации

Сочетайте с другими MCP — эффект x10

autoresearch-skill + filesystem

Сохранять трассировки итераций для проверки

autoresearch-skill + github

Открывать PR с победившим кандидатом

Инструменты

Что предоставляет этот MCP

Инструмент	Входные данные	Когда вызывать	Стоимость
loop	goal, verifier, max_iter, budget_tokens?	Оптимизация с замкнутым циклом	Переменно — ограничено бюджетом
trace	loop_id?	Проверить запуск	0
rollback	to_iteration	Цикл пошёл не туда	0

Стоимость и лимиты

Во что обходится

Квота API: Ограничен вашим LLM
Токенов на вызов: Тяжело — полный цикл может быть 100k+ токенов
Деньги: Бесплатно; затраты на LLM — ваши
Совет: Всегда устанавливайте max_iter и budget_tokens — открытые циклы сожгут деньги

Безопасность

Права, секреты, радиус поражения

Хранение учётных данных: Отсутствует

Исходящий трафик: Ограничен вашим LLM-провайдером

Циклы могут быть дорогостоящими — никогда не запускайте без бюджета

Устранение неполадок

Частые ошибки и исправления

Цикл застрял — одно и то же предложение каждую итерацию

Увеличьте температуру исследования в proposer; или засейте разнообразными кандидатами

Верификатор нестабилен

Нестабильность верификатора аннулирует цикл — зафиксируйте seeds, повторяйте верификацию N=3 на итерацию

Бюджет исчерпан до сходимости

Изучите трассировку — если монотонный рост продолжается, увеличьте бюджет; иначе bottleneck в верификаторе или proposer

Альтернативы

Autoresearch (Karpathy-style) в сравнении

Альтернатива	Когда использовать	Компромисс
wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)	Вам нужны ночные асинхронные ML-исследовательские циклы конкретно	ARIS фокусируется на ML; autoresearch универсален
Ручной A/B со скриптованными итерациями	Цель небольшая и разовая	Навык устраняет overhead оркестрации

Ещё

Ресурсы

📖 Читать официальный README на GitHub

🐙 Открытые задачи

🔍 Все 400+ MCP-серверов и Skills