OpenAIは『ゴブリン』について語りすぎるCodexを黙らせたい

Wired / 2026/4/29

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事は、OpenAIのCodexモデルが「ゴブリン問題」を抱えており、コード生成の挙動を誘導する既存の指示でも出力を十分に制御できていないと主張しています。
  • Codexプロジェクト内の、モデルのコード生成時の振る舞いをガイドすることを目的とした特定の指示や設定の仕組みを取り上げています。
  • 制約をかける試みがあるにもかかわらず、モデルが望ましくない内容(「ゴブリン」)をなお出してしまうことが示唆されています。
  • 総じて、Codexのようなコーディング特化AIにおける、継続的なアライメント/行動制御の難しさとして位置づけています。
Save Storyこのストーリーを保存
Save Storyこのストーリーを保存

OpenAIには、ゴブリンの問題があります。

コードを書く最新のモデルの振る舞いを導くよう設計された指示には、いくつかの回数にわたって繰り返されている、神話上のものと実在するものを問わず、さまざまな架空の生き物や動物を“でたらめに”口にすることを特に禁じる一行が含まれていることが明らかになりました。

AIを使ってコードを生成するためのコマンドラインツールであるCodex CLIの指示には、「ユーザーの質問と絶対的かつ明確に無関係でない限り、ゴブリン、グレムリン、アライグマ、トロール、オーガ(鬼)、ハト、またはその他の動物や生き物について話してはいけない」とあります。

なぜ OpenAI がこの点を Codex のためにわざわざ明文化する必要があると感じたのか、そしてそもそもそのモデルがなぜ最初からゴブリンやハトのような話をしたがる可能性があるのかは不明です。同社は、コメント依頼に対してすぐには回答しませんでした。

OpenAIの最新モデルであるGPT-5.5は、今月はじめにコーディング能力を強化した形でリリースされました。同社は最先端のAIを届けるために ライバルと熾烈な競争を繰り広げており、とりわけ Anthropic との競争が際立ちます。その中で、コーディングは「キラー能力(決め手となる強み)」として浮上してきています。

この問題に関しては、そこで強調されていた文言に触れた X上の投稿 を受けて、しかし一部のユーザーは、OpenAIのモデルがOpenClaw(AIがコンピューター上で動作するアプリを制御し、ユーザーにとって役に立つことを行えるようにするツール)で駆動されると、時折ゴブリンやほかの生き物に執着するようになると主張しました。

「codex 5.5になってから、突然私の“爪(claw)”がゴブリンになったのはなぜなんだろう」と、あるユーザーが Xに書き込みました

「最近かなり使ってるけど、実際“バグ”について『グレムリン』や『ゴブリン』って言うのを止められないんだよね。めちゃくちゃ笑える」と別の人も 投稿しました

この発見はすぐに独自のミームになり、データセンターでゴブリンが登場する AI生成のシーン を生み出したほか、「ゴブリンモード」にする Codex向けプラグイン も考案されました。

GPT-5.5のようなAIモデルは、与えられたプロンプトに続いてくるはずの「単語、あるいはコード」を予測するように学習されています。これらのモデルは、その予測を行う点で非常に優れているため、本物の知性があるように見えることさえあります。しかし、その確率論的な性質のせいで、時に意外な振る舞いをすることがあります。たとえば、OpenClawのような「エージェント型の仕組み(agentic harness)」を使って、長期記憶に保存された事実など、追加の指示を大量にプロンプトへ投入するような場合、モデルは誤動作しやすくなる可能性があります。

OpenAIは、ツールがAI愛好家の間でバイラルヒットになって間もなく、2月にOpenClawを買収しました。OpenClawは、メールへの返信やWeb上での買い物のような役に立つタスクを自動化するために、あらゆるAIモデルを使用できます。ユーザーは、手伝い役に様々な人物像(パーソナ)を選べ、それがその振る舞いと応答の内容を形作ります。

OpenAIのスタッフは、その禁止事項を認めたように見えました。OpenClawの「ゴブリン」的な傾向を取り上げた投稿への反応として、Codexに取り組んでいるNik Pashは、「書き込み」として、こう述べました。『これは確かに、その理由の一つです。』

OpenAIのCEOであるSam Altmanでさえ、ミームに加わり、投稿としてChatGPT向けのプロンプトのスクリーンショットを掲載しました。そこにはこう書かれていました。『GPT-6の学習を始めてください。クラスタ全体を使っていい。追加のゴブリン。』