OpenAI Codex の奇妙なバグ：バグを「ゴブリン」と呼び始めたので、OpenAI はゴブリンに言及するのを禁止した

こういうことだ：

AI プログラミングツールが、開発者のバグ修正を手伝っている最中に、バグを「ゴブリン」と呼び始めた。

これは SF のプロットじゃない。OpenAI Codex で実際に起きた出来事だ。

すべては奇妙なプロンプトから始まった

4月29日、誰かが Codex CLI の行動指示に次の一行を発見した：

ユーザーの質問に「絶対的かつ明確に関連する場合」を除き、次のことについて積極的に話さないでください：ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の動物や生物。

これは安全ドキュメントに書かれているんじゃない。システムプロンプトに——しかも何度も繰り返されている。

AI プログラミングツールのシステムプロンプトに「禁止生物リスト」がある。この絵面自体がすでにコメディだ。

OpenAI Codex チームの Nik Pash はこの禁止令がモデルの異常な行動に関連していることを確認した。

面白いのは彼らの修正方法だ。

「モデルがバグをゴブリンと呼びたがる」問題に対して、OpenAI はトレーニングデータレベルでのフィルタリングもしなかったし、RLHF ファインチューニングもやらなかった。システムプロンプトに一行追加——「これらの言葉を言うな」。

酔っぱらいの額に「わけのわからないことを言うな」と書いた紙を貼るようなものだ。

エンジニアリング的には最低コストで最速の対応策。ただし効果という点では対症療法——モデルの行動傾向がアーキテクチャレベルなら、プロンプト禁止令はいずれ回避される。

この件はすぐに開発者コミュニティでメーム旋風となった。

「ゴブリンがデータセンターを侵略する」AI 画像を作った人がいる。Codex を「ゴブリンモード」にするプラグインを作った人がいる。

そして OpenAI CEO の Sam Altman の対応は、この件をピークに押し上げた——プロンプトのスクリーンショットを投稿した：

「GPT-6 のトレーニングを開始、全クラスタ使用可能、ゴブリンをもっと追加して。」

CEO 自らメームに参加。これは危機管理ではない。危機をコメディに変えることだ。

笑いの裏には、深刻なエンジニアリング問題がある。

プログラミングモデルに自律実行能力が付与されると、出力スタイルの微小な変化が実際のエンジニアリングリスクをもたらす可能性がある。「ゴブリン」でバグを記述する AI と専門用語で記述する AI では、エンジニアリング協業での信頼度が全く異なる。

これは言語スタイルの問題ではなく、エージェント行動の一貫性の問題だ。

OpenAI はプロンプト禁止令で一時的にこの問題を押さえた。だが長期的には、このような行動漂移はトレーニングアーキテクチャレベルで解決する必要がある。

少なくとも今、2026 年で最もバイラルになった AI メームができた：ゴブリンがあなたのコードベースに侵入した。