Ajustar iterativamente un prompt de sistema contra un benchmark
Cuándo usarlo: Tienes un prompt, un benchmark y la paciencia para un bucle.
Requisitos previos
- Skill instalada — git clone https://github.com/uditgoenka/autoresearch ~/.claude/skills/autoresearch
- Benchmark con función de puntuación — /bench/run.sh que imprime una puntuación en stdout
Flujo
-
Definir el objetivoUsa autoresearch. Objetivo: maximizar la puntuación de /bench/run.sh sobre el prompt en /prompts/system.md. Presupuesto de 30 iteraciones.✓ Copiado→ El bucle arranca; se hace la primera propuesta
-
Observar la trazaMuéstrame las iteraciones 5-10 con los deltas.✓ Copiado→ Traza con puntuación por iteración; conservado/descartado marcado
-
Parada anticipadaSi 3 iteraciones consecutivas no mejoran > 1%, para e informa del mejor.✓ Copiado→ Se activa el guardia de convergencia; se informa del mejor prompt
Resultado: Mejor prompt, con una traza que explica el porqué.
Errores comunes
- El verificador es manipulable — la puntuación sube sin calidad — Añade un verificador de cordura (juez LLM o conjunto separado)