/ 目录 / 演练场 / Autoresearch (Karpathy-style)
● 社区 uditgoenka ⚡ 即开即用

Autoresearch (Karpathy-style)

作者 uditgoenka · uditgoenka/autoresearch

输入目标,输出结果——Claude 提出变更、执行、测量、保留成功、丢弃失败、持续迭代。Andrej Karpathy 的 autoresearch 循环,打包为一个 skill。

Autoresearch 将 Claude 变成一个闭环研究者:你指定一个目标和一个验证器(指标、测试或评判 prompt),skill 以「修改 → 验证 → 保留/丢弃」为周期迭代,并内置预算控制。灵感来自 Karpathy 的 autoresearch 系列文章。适用于目标可量化但搜索空间过大而无法提前规划的场景——prompt 调优、超参数搜索、重构提速、文案 A/B 测试。

为什么要用

核心特性

实时演示

实际使用效果

就绪

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json  · Windows: %APPDATA%\Claude\claude_desktop_config.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标,然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json
{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json
{
  "mcpServers": [
    {
      "name": "autoresearch-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ]
    }
  ]
}

Continue 使用服务器对象数组,而非映射。

~/.config/zed/settings.json
{
  "context_servers": {
    "autoresearch-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/uditgoenka/autoresearch",
          "~/.claude/skills/autoresearch"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add autoresearch-skill -- git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch

一行命令搞定。用 claude mcp list 验证,claude mcp remove 卸载。

使用场景

实战用法: Autoresearch (Karpathy-style)

针对基准测试迭代优化系统 prompt

👤 调优 prompt 的 AI 工程师 ⏱ ~90 min advanced

何时使用: 你有一个 prompt、一个基准测试,以及等待循环的耐心。

前置条件
  • 已安装 skill — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
  • 带评分函数的基准测试 — /bench/run.sh,在 stdout 输出一个分数
步骤
  1. 设定目标
    Use autoresearch. Goal: maximize score from /bench/run.sh on prompt at /prompts/system.md. Budget 30 iterations.✓ 已复制
    → 循环启动;第一个提案已生成
  2. 查看追踪日志
    Show me iterations 5–10 with deltas.✓ 已复制
    → 每轮迭代的分数变化追踪;保留/丢弃已标记
  3. 提前终止
    If 3 consecutive iterations fail to improve > 1%, stop and report best.✓ 已复制
    → 收敛守卫触发;最佳 prompt 已报告

结果: 更好的 prompt,并附有解释原因的追踪记录。

注意事项
  • 验证器可被规避——分数升高但质量未改善 — 添加健全性检查验证器(LLM 评判或留出集)
搭配使用: filesystem

通过自动迭代为热点函数压榨出 20% 性能提升

👤 拥有 profile 数据的后端开发者 ⏱ ~120 min advanced

何时使用: 你知道哪个函数慢;想让 Claude 找到更快的实现。

步骤
  1. 定义目标
    Goal: minimize wall-time of /bench/perf.sh which exercises foo(). Constraint: tests must keep passing.✓ 已复制
    → 循环启动;基线已捕获
  2. 迭代
    Run 20 iterations. Show the top 3 improvements at the end.✓ 已复制
    → 3 个候选重构,含量化加速幅度

结果: 经过验证的具体性能提升。

注意事项
  • 迭代引入了测试未覆盖到的正确性问题 — 在单元测试之外添加基于属性的测试作为验证器
搭配使用: github

针对 CTR 评判函数自动迭代落地页文案

👤 进行内容测试的市场人员 ⏱ ~60 min intermediate

何时使用: 你有一个 CTR 目标(或模拟该目标的评判 prompt)并有时间迭代。

步骤
  1. 设置评判函数
    Goal: maximize judge_score on /copy/headline.md. Judge prompt: 'rate likelihood a Series-B SaaS founder clicks this headline'.✓ 已复制
    → 评判基线已打分;循环启动
  2. 迭代
    Run 15 iterations; keep top 3 distinct candidates.✓ 已复制
    → Top 3 不同的标题

结果: 3 个候选标题供人工审核。

注意事项
  • 评判函数有与点击率无关的强烈风格偏好 — 将评判绑定到附有明确标准的评分细则文件

组合

与其他 MCP 搭配,撬动十倍杠杆

autoresearch-skill + filesystem

持久化迭代追踪日志以便检查

Save trace to /research/traces/<ts>.md after each loop.✓ 已复制
autoresearch-skill + github

以获胜候选方案开 PR

When loop finishes, open PR titled 'autoresearch: <metric> +X%'.✓ 已复制

工具

此 MCP 暴露的能力

工具输入参数何时调用成本
loop goal, verifier, max_iter, budget_tokens? 闭环优化 变量——受预算约束
trace loop_id? 检查某次运行 0
rollback to_iteration 循环走偏了 0

成本与限制

运行它的成本

API 配额
取决于你的 LLM
每次调用 Token 数
消耗较大——完整循环可能超过 100k token
费用
免费;LLM 费用自理
提示
始终设置 max_iter 和 budget_tokens——不设上限的循环会烧钱

安全

权限、密钥、影响范围

凭据存储:
数据出站: 取决于你的 LLM 提供商

故障排查

常见错误与修复

循环卡住——每轮迭代提案相同

提高提案端的探索温度;或用多样化候选作为初始种子

验证器结果不稳定

验证器的不稳定性会使循环失效——固定种子,每轮重复验证 N=3 次

预算耗尽仍未收敛

检查追踪日志——如果持续单调提升,提高预算;否则瓶颈在验证器或提案端

替代方案

Autoresearch (Karpathy-style) 对比其他方案

替代方案何时用它替代权衡
wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)你需要专门针对 ML 研究的隔夜异步循环ARIS 专注于 ML;autoresearch 是通用的
手动 A/B 加脚本迭代目标简单且只做一次skill 消除了编排开销

更多

资源

📖 阅读 GitHub 上的官方 README

🐙 查看未解决的 issue

🔍 浏览全部 400+ MCP 服务器和 Skills