/ Каталог / Песочница / Autoresearch (Karpathy-style)
● Сообщество uditgoenka ⚡ Сразу

Autoresearch (Karpathy-style)

автор uditgoenka · uditgoenka/autoresearch

Цель на входе, результаты на выходе — Claude предлагает изменение, запускает его, измеряет, сохраняет выигрыши, отбрасывает потери, итерирует. Цикл autoresearch Андрея Карпати, упакованный как навык.

Autoresearch превращает Claude в исследователя с замкнутым циклом: вы задаёте цель и верификатор (метрику, тест или промпт-судью), и навык итерирует Modify → Verify → Keep/Discard с контролем бюджета. Вдохновлён постами Карпати об autoresearch. Полезен, когда цель измерима, но пространство поиска слишком велико для предварительного планирования — настройка prompt'ов, поиск гиперпараметров, рефакторинг для производительности, A/B тексты.

Зачем использовать

Ключевые функции

Живое демо

Как выглядит на практике

готово

Установка

Выберите клиент

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Откройте Claude Desktop → Settings → Developer → Edit Config. Перезапустите после сохранения.

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Cursor использует ту же схему mcpServers, что и Claude Desktop. Конфиг проекта приоритетнее глобального.

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Щёлкните значок MCP Servers на боковой панели Cline, затем "Edit Configuration".

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Тот же формат, что и Claude Desktop. Перезапустите Windsurf для применения.

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "autoresearch-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ]
    }
  ]
}

Continue использует массив объектов серверов, а не map.

~/.config/zed/settings.json
{
  "context_servers": {
    "autoresearch-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/uditgoenka/autoresearch",
          "~/.claude/skills/autoresearch"
        ]
      }
    }
  }
}

Добавьте в context_servers. Zed перезагружается автоматически.

claude mcp add autoresearch-skill -- git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch

Однострочная команда. Проверить: claude mcp list. Удалить: claude mcp remove.

Сценарии использования

Реальные сценарии: Autoresearch (Karpathy-style)

Итеративная настройка системного prompt'а по бенчмарку

👤 AI-инженеры, настраивающие prompt'ы ⏱ ~90 min advanced

Когда использовать: У вас есть prompt, бенчмарк и терпение для цикла.

Предварительные требования
  • Навык установлен — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
  • Бенчмарк с функцией оценки — /bench/run.sh выводящий оценку на stdout
Поток
  1. Сформулировать цель
    Use autoresearch. Goal: maximize score from /bench/run.sh on prompt at /prompts/system.md. Budget 30 iterations.✓ Скопировано
    → Цикл запущен; первое предложение сделано
  2. Смотреть трассировку
    Show me iterations 5–10 with deltas.✓ Скопировано
    → Трассировка с оценкой на итерацию; сохранённые/отброшенные помечены
  3. Остановить досрочно
    If 3 consecutive iterations fail to improve > 1%, stop and report best.✓ Скопировано
    → Срабатывает защита от сходимости; лучший prompt указан

Итог: Лучший prompt с трассировкой, объясняющей почему.

Подводные камни
  • Верификатор поддаётся «игре» — оценка растёт без улучшения качества — Добавьте верификатор-проверку работоспособности (LLM-судья или held-out набор)
Сочетать с: filesystem

Выжать 20% производительности из горячей функции через авто-итерации

👤 Backend-разработчики с профильными данными ⏱ ~120 min advanced

Когда использовать: Вы знаете, какая функция медленная; вы хотите, чтобы Claude нашёл более быстрый эквивалент.

Поток
  1. Определить
    Goal: minimize wall-time of /bench/perf.sh which exercises foo(). Constraint: tests must keep passing.✓ Скопировано
    → Цикл запущен; базовый уровень зафиксирован
  2. Итерировать
    Run 20 iterations. Show the top 3 improvements at the end.✓ Скопировано
    → 3 варианта рефакторинга с измеренным ускорением

Итог: Конкретное ускорение, проверенное.

Подводные камни
  • Итерации вносят тонкую проблему корректности, которую тесты не замечают — Добавьте property-based тесты как верификатор рядом с unit-тестами
Сочетать с: github

Авто-итерации текста лендинга по судье CTR

👤 Маркетологи, проводящие контентные тесты ⏱ ~60 min intermediate

Когда использовать: У вас есть цель CTR (или промпт-судья, симулирующий её) и время на итерации.

Поток
  1. Настроить судью
    Goal: maximize judge_score on /copy/headline.md. Judge prompt: 'rate likelihood a Series-B SaaS founder clicks this headline'.✓ Скопировано
    → Базовый уровень судьи оценён; цикл запущен
  2. Итерировать
    Run 15 iterations; keep top 3 distinct candidates.✓ Скопировано
    → Топ-3 различных заголовка

Итог: 3 заголовка-кандидата для человеческого ревью.

Подводные камни
  • Судья имеет сильное стилевое предпочтение, не связанное с кликабельностью — Привяжите судью к файлу-рубрике с явными критериями

Комбинации

Сочетайте с другими MCP — эффект x10

autoresearch-skill + filesystem

Сохранять трассировки итераций для проверки

autoresearch-skill + github

Открывать PR с победившим кандидатом

Инструменты

Что предоставляет этот MCP

ИнструментВходные данныеКогда вызыватьСтоимость
loop goal, verifier, max_iter, budget_tokens? Оптимизация с замкнутым циклом Переменно — ограничено бюджетом
trace loop_id? Проверить запуск 0
rollback to_iteration Цикл пошёл не туда 0

Стоимость и лимиты

Во что обходится

Квота API
Ограничен вашим LLM
Токенов на вызов
Тяжело — полный цикл может быть 100k+ токенов
Деньги
Бесплатно; затраты на LLM — ваши
Совет
Всегда устанавливайте max_iter и budget_tokens — открытые циклы сожгут деньги

Безопасность

Права, секреты, радиус поражения

Хранение учётных данных: Отсутствует
Исходящий трафик: Ограничен вашим LLM-провайдером

Устранение неполадок

Частые ошибки и исправления

Цикл застрял — одно и то же предложение каждую итерацию

Увеличьте температуру исследования в proposer; или засейте разнообразными кандидатами

Верификатор нестабилен

Нестабильность верификатора аннулирует цикл — зафиксируйте seeds, повторяйте верификацию N=3 на итерацию

Бюджет исчерпан до сходимости

Изучите трассировку — если монотонный рост продолжается, увеличьте бюджет; иначе bottleneck в верификаторе или proposer

Альтернативы

Autoresearch (Karpathy-style) в сравнении

АльтернативаКогда использоватьКомпромисс
wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)Вам нужны ночные асинхронные ML-исследовательские циклы конкретноARIS фокусируется на ML; autoresearch универсален
Ручной A/B со скриптованными итерациямиЦель небольшая и разоваяНавык устраняет overhead оркестрации

Ещё

Ресурсы

📖 Читать официальный README на GitHub

🐙 Открытые задачи

🔍 Все 400+ MCP-серверов и Skills