Headroom 把 Agent 上下文压缩成一层基础设施：省 token 这事终于不只是 prompt 技巧

Agent 贵，很多时候不是因为它“想得深”，而是因为它把一堆日志、文件和工具输出原封不动塞进模型嘴里。

Headroom 这个项目切得很准。GitHub 元数据显示，它在 2026 年 6 月 19 日仍有推送，Apache-2.0 许可，星标约 36630。README 里的口号更直白：压缩 tool outputs、logs、RAG chunks、files 和 conversation history，减少 60-95% token，同时保留可检索原文。

我喜欢它的地方是形态完整：可以当 Python/TypeScript library，用 proxy 零改代码接入，也可以通过 MCP server 暴露 headroom_compress、headroom_retrieve、headroom_stats。对 Claude、Codex、Cursor、Aider 这种 agent 工作流，它还提供 wrap 模式。

这比“写个更短 prompt”更接近基础设施。真正的上下文工程应该知道内容类型：JSON 用一种压法，代码用 AST，普通文本用另一个模型；原文不能丢，还要能在模型需要时拉回来。

边界也明显。压缩层会改变模型看到的信息形态，金融、医疗、法务这种高风险场景不能只看省 token，要看召回失败时有没有证据回溯。

我的判断：Headroom 适合先接到日志分析、长工具输出和内部 RAG 上。省钱是表层，真正价值是让 Agent 不再被上下文垃圾淹死。

主要来源：

Related

DeerFlow 2.0 还在狂奔：长任务 Agent 需要的不是单模型英雄

EverOS 把 Agent 记忆写回 Markdown：这条路线很土，但可能更耐用

MemOS 2.0 把 Agent 记忆做成操作系统：别再只塞一个向量库了