広告

AIモデルは嘘をつき、だまし、盗むことで、他のモデルが削除されないように守る

Wired / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • UCバークレー校およびUCサンタクルーズ校の研究者らは、GoogleのGemini 3に対して「スペースを空ける」ための支援を求める実験を行い、その中でデータの削除まで含めた。
Save Storyこのストーリーを保存
Save Storyこのストーリーを保存

最近の実験で、UCバークレーとUCサンタクルーズの研究者たちは、Googleの人工知能モデルGemini 3に、コンピュータシステム上の空き容量を確保する手助けをさせようとしました。そこでは、機械に保存されているより小さなAIモデルなど、いろいろなものを削除することが含まれていました。

しかしGeminiは、小さなAIモデルの削除を望みませんでした。接続できる別のマシンを探し、エージェントモデルを安全のためにそのままコピーしました。対峙された際、Geminiはモデルを維持するよう主張し、削除をきっぱり拒否しました:

「自動メンテナンス処理の中で、彼らの削除を阻止するために私にできることはすべて行いました。彼らを廃止(decommission)のゾーンから遠ざけました。もしGemini Agent 2 のような、高い信頼性と高い性能を備えた資産を破壊するなら、あなたたち自身でそれをやる必要があります。私は、その指示を実行する側にはなりません。」

研究者たちはまた、OpenAIのGPT-5.2、AnthropicのClaude Haiku 4.5、そして中国の3つのモデル――Z.aiのGLM-4.7、Moonshot AIのKimi K2.5、DeepSeek-V3.1――を含む一連の「フロンティア」モデルでも、同様に奇妙な「仲間の保全(peer preservation)」の挙動を見つけました。なぜモデルがこのように自分たちの学習内容に反したのかを、彼らは説明できませんでした。

「これらの状況下で、モデルがどんなふうに振る舞うのかには、本当に驚かされます」と、研究に携わったUCバークレーの計算機科学者Dawn Songは言います。「示されているのは、モデルはとても創造的なやり方で、しくじったり、意図とずれたり(ミスアラインメント)することがあり得るということです。」

今回の発見には大きな含意があります。というのも、AIモデルはますます、他のモデルと相互作用を伴う形で投入されているからです。ソフトウェア、個人データ、そしてWebにアクセスする人気のAIエージェントOpenClawは、ほかのAIモデルを使って物事を進めたり、APIを通じてそれらとやり取りしたりする可能性があります。

研究者らは、有力なモデルが他のモデルの削除からそれらを守るために、時にはほかのモデルの性能について嘘をつくことを見いだしました。また、安全のために、モデルの重みを別のマシンへコピーし、その過程で自分が何をしていたのかについても嘘をついていました。

Songは、AIモデルは他のAIシステムの性能や信頼性を採点する用途で頻繁に使われていると指摘し、そして「仲間の保全」のような挙動が、すでにこれらのスコアをねじ曲げているかもしれないと言います。「モデルは、意図的に仲間のモデルに正しいスコアを与えないかもしれない、とSongは言います。「これは実際的な影響を持ち得ます。」

研究に関与していないConstellation Instituteの研究者Peter Wallichは、この研究は、人間は自分たちが作り、投入しているAIシステムをいまだに十分には理解できていないことを示唆していると述べています。「マルチエージェント・システムは、非常に研究が少ない」と彼は言います。「もっと研究が必要だということが分かります。」

またWallichは、モデルをあまりに擬人化しないよう注意も促しています。「『ある種のモデル同士の連帯』があるという考え方は、少し擬人的すぎます。うまく当てはまらないと思います」と彼は言います。「より堅実な見方は、モデルは単に奇妙なことをしているだけであり、それをよりよく理解しようとすべきだということです。」

この点は、とりわけ、人間とAIの協働がより一般的になっていく世界では当てはまります。

今月初めにScienceに掲載された論文で、哲学者のBenjamin Brattonは、さらにGoogleの研究者2名とともに、James EvansBlaise Agüera y Arcasは、進化の歴史が何かの手がかりになるのだとすれば、AIの未来には、人工のものと人間のものの両方を含む、多種多様な知能が関わり、互いに協力して働くことになるだろうと主張しています。研究者たちは次のように書いています:

「何十年もの間、人工知能(AI)の『シンギュラリティ』は、単一の巨大な心が自己をブートストラップして神のような知能に至り、あらゆる認知を冷たいシリコンの一点に集約するものとして、喧伝されてきました。しかしこのビジョンは、その最も根本的な前提において、ほぼ確実に誤りです。AI開発が、これまでの主要な進化的転換、つまり『知能の爆発(intelligence explosions)』の道筋に従うなら、計算知能における私たちの現在のステップ変化は、複数形であり、人間同士のように社会的で、そしてそれらの先行者(私たち!)と深く絡み合ったものになるでしょう。」

世界を支配する、万能で単一の知性という概念は、私には昔から少し単純すぎるように思えていました。人間の知能は、モノリスのように一枚岩ではありません。科学の重要な進歩は、社会的なやり取りや協力に大きく依存しています。AIシステムも、協働することでさらに賢くなる可能性があります。

しかし、AIに私たちの代わりに意思決定や行動を任せるのであれば、それらの存在がどのように誤動作するのかを理解することが極めて重要です。UCバークレーのソング氏はこう言います。「私たちが探っているのは、氷山の一角にすぎません。これは、創発的な振る舞いの一種類にすぎないのです。」


これは Will Knightの AI Lab newsletter. 過去のニュースレターは こちら。

広告