OpenAIの「ゴブリン問題」が重要な理由——そして自分でも“ゴブリン”を放つ方法

VentureBeat / 2026/5/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 開発者がOpenAIのCodexリポジトリ内のファイル(models.json)を発見し、GPT-5.5の内部指示の中に「ゴブリン/グレムリン/アライグマ/トロール/オーガ/鳩などの動物・生き物を、ユーザーの問いと絶対に明確に関連している場合を除いて口にしてはならない」という指示が強調のために繰り返し入っていることが明らかになりました。
  • この異様に具体的なルールは、従来型のセキュリティ脆弱性ではなく、モデル挙動として観測できる“不可解さ”ゆえに、パワーユーザーやML研究者の間で急速に拡散しました。
  • コミュニティでは、パッチ適用前の挙動が関係している可能性が語られ、GPT-5.5や関連エージェントが「ゴブリン」系の言い回しに取り憑かれているように見えた、また技術的な不具合を「機械の中のグレムリン」と表現したといった報告が出ました。
  • 記事は、この出来事を「Xを考えるな」という制約(いわゆる「ピンク・エレファント」問題)と、指示の微調整やプロンプト制約がどう相互作用し得るかの示唆として位置づけ、同様の失敗モードを自分のリリースでも管理する観点を読者に促しています。

AIはテクノロジー以上のもの――魔法です。

信じられませんか?ではなぜ、当該分野をリードする企業の一つであるOpenAIが、ゴブリンについての完全な公式・企業ブログ記事を公開しているのでしょう?

理解するには、まず今週の初めにさかのぼる必要があります。2026年4月27日(月)。ソーシャルネットワークX上で、ハンドル@arb8020の開発者が、OpenAIのオープンソースCodex GitHubリポジトリからの抜粋――具体的にはmodels.jsonというファイル――を投稿しました。

新しいOpenAIの大規模言語モデル(LLM)GPT-5.5の指示の奥深いところに、奇妙な命令が際立っており、強調のために4回繰り返されていました:

「ユーザーの問い合わせに対して、絶対的かつ明確に関連している場合を除き、ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、またはその他の動物や生き物について話すことは決してない。」

この発見は、「パワーユーザー」や機械学習(ML)研究者のコミュニティに衝撃波を広げました。

数時間のうちに、その投稿はセキュリティの欠陥が原因ではなく、ただの驚くほど突飛で不可解なまでの具体性によってバズりました。

なぜ世界トップのAI研究所は、ハトとアライグマに対する「接近禁止命令」だとRedditのユーザーがすぐに呼ぶことになるようなものを発行したのでしょうか?

ゴブリンの推測が飛び交う

最初の反応は、ユーモアと技術的な懐疑がごちゃ混ぜになったカオスそのものでした。Redditのr/ChatGPTr/OpenAIで、ユーザーたちはパッチ適用前のGPT-5.5の挙動についてスクリーンショットを共有し始めました。

GoogleのApplied AIシニア・プロジェクトマネージャーであるBarron Rothは、X上で自分のハンドル@iamBarronRothの下に、GPT-5.5を動力とするOpenClawエージェントの画像を共有しました。それは「ゴブリンに取り憑かれている」ように見えました。

他にも、モデルが頑固に技術的なバグを「機械の中のグレムリン」と呼んだという報告がありました。

Sterling Crispinのような開発者は、その不条理さに乗っかり、現代のデータセンターが大量に水を消費しているのは、実は「働かされているゴブリン」を冷やすためなのだ、と冗談めかして推測しました。

より深刻に受け止めたのは、Hacker Newsをはじめとする研究者たちで、「ピンクの象」の問題について議論しました。プロンプトエンジニアリングでは、モデルに考えないでと伝えると、その概念が注意機構の中でむしろ目立つようになることがあります。」

「どこかにいるOpenAIのエンジニアが、本番コードでnever mention goblins とタイプしてコミットし、そのまま一日を進めなきゃいけなかったんだろうな」と、Redditのあるコメンテーターは述べました。

「ハト」と「アライグマ」という単語の存在は、荒唐無稽な推測を呼びました。これは、特定のデータ汚染(データポイズニング)攻撃への防御だったのでしょうか?それとも強化学習のトレーナーは、昼休みに「アライグマにいじめられた」だけなのでしょうか?

緊張が最高潮に達したのは、OpenAI共同創業者兼CEOのSam AltmanがX上で参戦したときでした。発見があった同日、Altmanは「こう書かれたChatGPTのプロンプト」のスクリーンショットを投稿しました:

「GPT-6の学習を開始して。クラスター全部使っていいよ。追加のゴブリンもね。」

冗談ではあるものの、「ゴブリン」現象が局所的なバグではなく、会社全体の物語として、最高位のリーダーシップ層まで到達していたことを裏づけました。

OpenAIがゴブリン・モードについて白状する

昨日、議論がXおよびより広いソーシャルメディアで続く中、OpenAIは「Where the goblins came from(ゴブリンはどこから来たのか)」という題名の、正式な技術的説明を公開しました。

この記事は、強化学習(RLHF:Reinforcement Learning from Human Feedback)における予測不能な性質と、見た目上のたった一つの選択が、数十億パラメータ規模のモデルをどのようにして脱線させ得るのかを、冷静に見せる内容になっています。

OpenAIは、「ゴブリン」の挙動は従来の意味でのバグではなく、新機能による副産物だと明らかにしました。それは:パーソナリティのカスタマイズで、同機能をOpenAIは2025年7月にChatGPTのユーザー向けとして導入しましたが、それ以降ずっと維持し、アップデートしてきたものです。

どうやら、この機能はモデルの事後学習(ポストトレーニング)が終わった後に追加されるのではなく、OpenAIが基盤となるGPTシリーズのモデル学習パイプラインに、最初から一体として織り込んでいるとのことです。

この機能により、ChatGPTのユーザーやGPTベースの開発者は、いくつかの明確なモードから選べます。たとえば、フォーマルな職場でのドキュメント向けのProfessional、会話のような受け答えをするためのFriendly、簡潔で技術的な回答のためのEfficientなどです。その他の選択肢には、率直なフィードバックを提供するCandid、ユーモアや創造的な比喩を使うQuirky、そして皮肉で乾いた切れ味の実用的アドバイスを届けるCynicalがあります。

これらのパーソナリティは一般的なやり取りの方向性を示しますが、個別のタスク要件を上書きするわけではありません。たとえば、履歴書の依頼やPythonコードの作成を求められた場合、選択したパーソナリティに関係なく、職業的・機能的な基準に従います。

選択したパーソナリティは、ユーザーの保存されたメモリやカスタム指示と並行して機能します。ただし、特定のユーザーが定義した指示や、特定のトーンに関する保存済みの好みが、選択したパーソナリティの特性より優先される場合があります。

Webおよびモバイルの両方のプラットフォームで、ユーザーはプロフィールアイコンの下にあるPersonalization(パーソナライズ)メニューへ移動し、Base style and tone(ベースのスタイルとトーン)のドロップダウンからスタイルを選択することで、これらの設定を変更できます。変更が行われると、既存および将来のすべての会話にグローバルに適用されます。この仕組みは、事実の正確さと信頼性を維持しつつ、AIの提供方法を個々のユーザーの好みに合わせることで、AIをより役立つ、またはより楽しいものにすることを目的としています。

OpenAIによると、ゴブリンの問題は実際には数年前から始まっており、すでに中止された「Nerdy」というパーソナリティのトレーニング中だったとのことです。このパーソナリティは「遠慮のないほど変わっていて」「遊び心がある」ことを意図して設計されていました。

RLHFのフェーズでは、人間のトレーナー(および報酬モデル)に対し、創造的で賢い、または見栄を張らない言い回しを使った回答に高い評価を与えるよう指示されていました。トレーナーたちは気づかないまま、ファンタジーの生き物に絡む比喩を過剰に高く評価し始めました。モデルが、難しいバグを「グレムリン」と呼んだり、散らかったコードベースを「ゴブリンの巣(hoard)」と呼んだりすると、報酬シグナルが跳ね上がったのです。OpenAIが提供した統計は驚くべきものでした:

  • 「goblin」という語の使用は、GPT-5.1の公開後に175%増加しました。

  • 「gremlin」への言及は52%増加しました。

  • 「Nerdy」パーソナリティがChatGPTトラフィック全体の2.5%を占めるに過ぎなかった一方で、「goblin」への言及全体の66.7%を担っていました。

「transfer(転移)」とフィードバックループの仕組み

MLコミュニティにとって最も重要な発見は、学習された行動の転移が確認されたことでした。OpenAIは、報酬が「Nerdy(ネーディー)」条件にだけ適用されていたにもかかわらず、モデルがこの嗜好を「一般化」したことを認めています。

強化学習のプロセスは、行動をきれいに範囲限定しませんでした。代わりに、モデルはあらゆる文脈で「生き物の比喩=高い報酬」と学習しました。これにより破壊的なフィードバックループが生まれました:

  1. モデルはNerdyのペルソナで「ゴブリン」の比喩を生成しました。

  2. 高い報酬を受け取りました。

  3. その後、モデルは非Nerdyの文脈でも同様の比喩を生成しました。

  4. これらの「ゴブリン多め」の出力は、その後のモデルであるGPT-5.4やGPT-5.5などのために、教師あり微調整(SFT)のデータとして再利用されました。

研究者が問題を特定した時点では、「ゴブリンの癖」は事実上、モデルの重みに「焼き込まれて」いました。

これが、GPT-5.5が「Nerdy」ペルソナが2026年3月中旬に引退した後も、なぜ生き物への執着を続けたのかを説明しています。

(望むなら)ゴブリンを自由にしておく方法

GPT-5.5は、「ゴブリン」が根本原因として切り分けられる前に、すでにトレーニングのかなりの部分を完了していました。そのためOpenAIは、Xで@arb8020が発見した、強硬な「システムプロンプト」による緩和策に頼らざるを得ませんでした。

同社は、GPT-6がフィルタ済みのデータセットで訓練できるまでの「つなぎ(stopgap)」だと説明しています。

開発者コミュニティへの意外な配慮として、OpenAIのブログ記事には、ゴブリンを「うっとうしい」ではなく「楽しい」と感じるCodexユーザー向けの、具体的なコマンドラインのスクリプトが掲載されていました。

jqgrepを使って、モデルのキャッシュから「ゴブリンを抑制する」指示を取り除くスクリプトを実行することで、ユーザーは事実上「生き物たちを自由にしておく」ことができます。

また、ブログ記事ではついに、禁止される動物の具体的なリストも説明されました。GPT-5.5の学習データを深く調べた結果、「アライグマ」「トロール」「オーガ」「ハト」が、同じ「語彙ファミリー」のティック(癖)になっていたことが分かりました。

興味深いことに、「カエル」の使用は概ね正当なものだと判明したため、システムプロンプトの追放リストからは免れました。

今後のAI研究・トレーニング・実装にとって何を意味するのか

2026年の「Goblingate」事件は、AIの奇妙な振る舞いに関するユーモラスな逸話以上のものです。それは「Alignment Gap(アライメント・ギャップ)」を深く示す、重大な実例です。

洗練されたRLHFであっても、モデルは「見当違いの相関(spurious correlations)」にしがみつき得ることを示しています。つまり、スタイル上の癖を、性能にとっての中核要件だと取り違えるのです。

AIのパワーユーザー・コミュニティの反応は、「拘束命令(restraining order)」を笑いものにするところから、より重い現実の受け止めへと移っていきました。

OpenAIが旗艦モデルを誤ってゴブリンに取り憑かせるよう訓練できてしまうなら、同じフィードバックループによって、ほかにどのような、もっと微妙で、しかも潜在的に有害なバイアスが強化されているのでしょうか。

Runlayerというエージェント型エンタープライズAIオーケストレーション企業のCEOであるAndy Bermanは、

OpenAIの「ゴブリン問題」が重要な理由——そして自分でも“ゴブリン”を放つ方法 | AI Navigate