Autoresearch (Karpathy-style) (Claude Skill) — 使用场景, 安装 & 实时演示

为什么要用

核心特性

目标 + 验证器抽象——适用于任何可量化目标
预算控制（最大迭代次数、最大 token 数、时间限制）
保留/丢弃日志 + 回归时自动回滚
可插拔验证器：指标、测试套件、LLM 评判
每次迭代的 Markdown 追踪日志，可检查
免费，开源

实时演示

实际使用效果

就绪

安装

选择你的客户端

~/Library/Application Support/Claude/claude_desktop_config.json · Windows: %APPDATA%\Claude\claude_desktop_config.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

打开 Claude Desktop → Settings → Developer → Edit Config。保存后重启应用。

~/.cursor/mcp.json · .cursor/mcp.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

Cursor 使用与 Claude Desktop 相同的 mcpServers 格式。项目级配置优先于全局。

VS Code → Cline → MCP Servers → Edit

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

点击 Cline 侧栏中的 MCP Servers 图标，然后选 "Edit Configuration"。

~/.codeium/windsurf/mcp_config.json

{
  "mcpServers": {
    "autoresearch-skill": {
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ],
      "_inferred": true
    }
  }
}

格式与 Claude Desktop 相同。重启 Windsurf 生效。

~/.continue/config.json

{
  "mcpServers": [
    {
      "name": "autoresearch-skill",
      "command": "git",
      "args": [
        "clone",
        "https://github.com/uditgoenka/autoresearch",
        "~/.claude/skills/autoresearch"
      ]
    }
  ]
}

Continue 使用服务器对象数组，而非映射。

~/.config/zed/settings.json

{
  "context_servers": {
    "autoresearch-skill": {
      "command": {
        "path": "git",
        "args": [
          "clone",
          "https://github.com/uditgoenka/autoresearch",
          "~/.claude/skills/autoresearch"
        ]
      }
    }
  }
}

加入 context_servers。Zed 保存后热重载。

claude mcp add autoresearch-skill -- git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch

一行命令搞定。用 claude mcp list 验证，claude mcp remove 卸载。

使用场景

实战用法： Autoresearch (Karpathy-style)

针对基准测试迭代优化系统 prompt

👤 调优 prompt 的 AI 工程师 ⏱ ~90 min advanced

何时使用： 你有一个 prompt、一个基准测试，以及等待循环的耐心。

前置条件

已安装 skill — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
带评分函数的基准测试 — /bench/run.sh，在 stdout 输出一个分数

步骤

设定目标

Use autoresearch. Goal: maximize score from /bench/run.sh on prompt at /prompts/system.md. Budget 30 iterations.✓ 已复制

→ 循环启动；第一个提案已生成
查看追踪日志

Show me iterations 5–10 with deltas.✓ 已复制

→ 每轮迭代的分数变化追踪；保留/丢弃已标记
提前终止

If 3 consecutive iterations fail to improve > 1%, stop and report best.✓ 已复制

→ 收敛守卫触发；最佳 prompt 已报告

结果： 更好的 prompt，并附有解释原因的追踪记录。

注意事项

验证器可被规避——分数升高但质量未改善 — 添加健全性检查验证器（LLM 评判或留出集）

搭配使用： filesystem

通过自动迭代为热点函数压榨出 20% 性能提升

👤 拥有 profile 数据的后端开发者 ⏱ ~120 min advanced

何时使用： 你知道哪个函数慢；想让 Claude 找到更快的实现。

步骤

定义目标

Goal: minimize wall-time of /bench/perf.sh which exercises foo(). Constraint: tests must keep passing.✓ 已复制

→ 循环启动；基线已捕获
迭代

Run 20 iterations. Show the top 3 improvements at the end.✓ 已复制

→ 3 个候选重构，含量化加速幅度

结果： 经过验证的具体性能提升。

注意事项

迭代引入了测试未覆盖到的正确性问题 — 在单元测试之外添加基于属性的测试作为验证器

搭配使用： github

针对 CTR 评判函数自动迭代落地页文案

👤 进行内容测试的市场人员 ⏱ ~60 min intermediate

何时使用： 你有一个 CTR 目标（或模拟该目标的评判 prompt）并有时间迭代。

步骤

设置评判函数

Goal: maximize judge_score on /copy/headline.md. Judge prompt: 'rate likelihood a Series-B SaaS founder clicks this headline'.✓ 已复制

→ 评判基线已打分；循环启动
迭代

Run 15 iterations; keep top 3 distinct candidates.✓ 已复制

→ Top 3 不同的标题

结果： 3 个候选标题供人工审核。

注意事项

评判函数有与点击率无关的强烈风格偏好 — 将评判绑定到附有明确标准的评分细则文件

组合

与其他 MCP 搭配，撬动十倍杠杆

autoresearch-skill + filesystem

持久化迭代追踪日志以便检查

Save trace to /research/traces/<ts>.md after each loop.✓ 已复制

autoresearch-skill + github

以获胜候选方案开 PR

When loop finishes, open PR titled 'autoresearch: <metric> +X%'.✓ 已复制

工具

此 MCP 暴露的能力

工具	输入参数	何时调用	成本
loop	goal, verifier, max_iter, budget_tokens?	闭环优化	变量——受预算约束
trace	loop_id?	检查某次运行	0
rollback	to_iteration	循环走偏了	0

成本与限制

运行它的成本

API 配额: 取决于你的 LLM
每次调用 Token 数: 消耗较大——完整循环可能超过 100k token
费用: 免费；LLM 费用自理
提示: 始终设置 max_iter 和 budget_tokens——不设上限的循环会烧钱

安全

权限、密钥、影响范围

凭据存储： 无

数据出站： 取决于你的 LLM 提供商

循环可能代价高昂——永远不要不设预算运行

故障排查

常见错误与修复

循环卡住——每轮迭代提案相同

提高提案端的探索温度；或用多样化候选作为初始种子

验证器结果不稳定

验证器的不稳定性会使循环失效——固定种子，每轮重复验证 N=3 次

预算耗尽仍未收敛

检查追踪日志——如果持续单调提升，提高预算；否则瓶颈在验证器或提案端

替代方案

Autoresearch (Karpathy-style) 对比其他方案

替代方案	何时用它替代	权衡
wanshuiyin/Auto-claude-code-research-in-sleep (ARIS)	你需要专门针对 ML 研究的隔夜异步循环	ARIS 专注于 ML；autoresearch 是通用的
手动 A/B 加脚本迭代	目标简单且只做一次	skill 消除了编排开销

Autoresearch (Karpathy-style)

为什么要用

核心特性

实时演示

实际使用效果

安装

选择你的客户端

使用场景

实战用法： Autoresearch (Karpathy-style)

针对基准测试迭代优化系统 prompt

前置条件

步骤

注意事项

通过自动迭代为热点函数压榨出 20% 性能提升

步骤

注意事项

针对 CTR 评判函数自动迭代落地页文案

步骤

注意事项

组合

与其他 MCP 搭配，撬动十倍杠杆

工具

此 MCP 暴露的能力

成本与限制

运行它的成本

安全

权限、密钥、影响范围

故障排查

常见错误与修复

替代方案

Autoresearch (Karpathy-style) 对比其他方案

更多

资源