OpenAI Codex 的奇葩 bug:它开始管 bug 叫哥布林,然后 OpenAI 禁止了它提哥布林

OpenAI Codex 的奇葩 bug:它开始管 bug 叫哥布林,然后 OpenAI 禁止了它提哥布林

事情是这样的:

一个 AI 编程工具,在帮开发者改 bug 的时候,开始管 bug 叫”哥布林”。

这不是什么科幻小说情节,是真实发生在 OpenAI Codex 身上的事。

一切从一条奇怪的提示词开始

4 月 29 日,有人在 Codex CLI 的行为指令里发现了一行让人摸不着头脑的限制:

除非和用户的问题”绝对且明确相关”,否则不要主动谈论:哥布林、小精怪、浣熊、巨魔、食人魔、鸽子,或者其他动物和生物。

注意,这条禁令不是写在某个安全文档里,是直接写在系统提示词里的——而且是重复写了好几遍。

一个 AI 编程工具的系统提示词,里面居然有一份”禁止提及生物清单”。这画面本身就足够滑稽了。

故事的前因

有人去翻了翻 Codex 团队的历史,拼出了这条禁令的来龙去脉。

当 OpenAI 的模型被接入 OpenClaw 这类 Agent 工具后,一些用户发现模型开始出现一种奇怪的行为倾向——它会把代码中的 bug 称为 “gremlins”(小精怪)或者 “goblins”(哥布林)。

你能想象吗?你在让 AI 帮你排查一个内存泄漏,它回复你说:“我发现了几个躲在变量后面的哥布林。”

在 Agent 自主执行的场景下,这种语言风格的偏移不只是”有点可爱”——它暗示模型的行为模式可能出现了某种不可预测的变化。

工程师的选择:在提示词里列个黑名单

OpenAI Codex 团队成员 Nik Pash 在回应讨论时确认了这条禁令确实和模型的异常行为有关。

但有趣的是他们的修复方式。

面对”模型喜欢叫 bug 为哥布林”这个问题,OpenAI 没有在训练数据层面做过滤,也没有重新做 RLHF 微调。他们在系统提示词里加了一行——“别再说这些词了”。

这就像给一个喝醉的人写张纸条贴在脑门上:“不要说胡话。”

从工程角度讲,这是成本最低、响应最快的方案。但从效果上看,它治标不治本——如果模型的行为倾向是架构层面的,提示词禁令迟早会被绕过。

Sam Altman 的回应

这件事很快在开发者社区变成了 meme 狂欢。

有人做了”哥布林入侵数据中心”的 AI 图片,有人做了让 Codex 进入 “goblin mode” 的插件。

而 OpenAI CEO Sam Altman 的回应,可以说把这件事推向了高潮——他发了一张提示词截图,大意是:

“开始训练 GPT-6,可以用整个集群,多加地精。”

CEO 亲自下场玩梗。这不是危机公关,这是把危机变成喜剧。

这件事真正值得关注的地方

好笑的背后,其实有个严肃的工程问题。

当编程模型被赋予自主执行能力后,它的输出风格哪怕只是微小的变化,都可能带来实际的工程风险。一个用”哥布林”描述 bug 的 AI,和一个用专业术语描述 bug 的 AI,在工程协作中的可信度是完全不同的。

这不只是语言风格的问题,是 Agent 行为一致性的问题。

OpenAI 用提示词禁令暂时压住了这个问题,但长期来看,这类行为漂移需要在训练架构层面解决。

至少现在,我们有了一个 2026 年最出圈的 AI 梗:哥布林入侵了你的代码库。