Agent 贵,很多时候不是因为它“想得深”,而是因为它把一堆日志、文件和工具输出原封不动塞进模型嘴里。
Headroom 这个项目切得很准。GitHub 元数据显示,它在 2026 年 6 月 19 日仍有推送,Apache-2.0 许可,星标约 36630。README 里的口号更直白:压缩 tool outputs、logs、RAG chunks、files 和 conversation history,减少 60-95% token,同时保留可检索原文。
我喜欢它的地方是形态完整:可以当 Python/TypeScript library,用 proxy 零改代码接入,也可以通过 MCP server 暴露 headroom_compress、headroom_retrieve、headroom_stats。对 Claude、Codex、Cursor、Aider 这种 agent 工作流,它还提供 wrap 模式。
这比“写个更短 prompt”更接近基础设施。真正的上下文工程应该知道内容类型:JSON 用一种压法,代码用 AST,普通文本用另一个模型;原文不能丢,还要能在模型需要时拉回来。
边界也明显。压缩层会改变模型看到的信息形态,金融、医疗、法务这种高风险场景不能只看省 token,要看召回失败时有没有证据回溯。
我的判断:Headroom 适合先接到日志分析、长工具输出和内部 RAG 上。省钱是表层,真正价值是让 Agent 不再被上下文垃圾淹死。
主要来源: