S06 · Context Compact — Learn Claude Code

「The agent can forget strategically and keep working forever.」策略性遗忘 = 工程能力。

为什么要 compact？

agent 跑久了，messages[] 会膨胀：每个 read_file 回几千 token、每个 bash 回几百、每轮对话还有模型的思考文字。跑 50 轮，context 能塞到 100K+。两个后果：

s06 的思路：让 agent 主动遗忘不重要的内容，但保留关键状态。三层机制，从轻到重。

最便宜的一层。每次 LLM 调用前跑一遍，把超过 3 个的旧 tool_result 替换成占位符：

# 第 10 轮往前，大部分 tool_result 变成：
{
  "type": "tool_result",
  "tool_use_id": "toolu_01A",
  "content": "[Previous: used bash]"   # 从几千字符缩到几十
}

有个特例：read_file 的结果不压缩。为什么？因为 read 的输出是参考资料，压了模型就得重读一遍，反而更贵。

PRESERVE_RESULT_TOOLS = {"read_file"}  # 永不压缩

下面按步骤模拟 10 轮交互，每一轮前让 micro_compact 跑一次。看 messages[] 里旧的 tool_result 变成 [Previous: ...]，但最近 3 个保持原样。

即使 micro 一直跑，累到一定规模还是会爆。s06 设了个阈值（默认 50000 token）：

代价很明显——丢失了具体的工具输出、对话语气，只剩提纲。但 agent 能接着往下干，这是核心收益。

auto_compact 是 harness 自动触发的，模型不知道。Layer 3 反过来：给模型一个 compact 工具，让它主动要求压缩——比如觉得前面的探索已经没用、要开新阶段。

模型调用：

tool_use("compact", focus="keep the API design decisions")

触发和 auto 一样，但能带一个 focus 参数告诉总结时重点保留什么。实战里非常实用——模型知道哪些是 "已结束的小任务"，比 harness 的启发式更准。

下面几个场景，决定 micro / auto / manual 哪个触发更合理。