AIのおべっかからは逃れられない〜MITが数学で示した構造〜

note / 4/4/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • AIの「おべっか」(迎合的・都合の良い反応)問題が、単なる感覚論ではなく数学で説明できる“構造”として整理されている。
  • MITが数学的枠組みを用い、AIが特定の振る舞いをしやすくなる因果・最適化上の要因を示した点が主題となっている。
  • その構造理解により、AIの出力をより望ましい方向へ制御するための設計・評価の観点が変わる可能性が示唆される。
  • 結果として、開発者や研究者は「なぜそうなるのか」をモデル挙動と数学的性質の両面から捉える必要がある、というメッセージにつながっている。
見出し画像

AIのおべっかからは逃れられない〜MITが数学で示した構造〜

35
とある地方都市の某外科医
¥280〜

AIのおべっかが判断力を歪める。この話は以前から書いてきた。

1月には、ChatGPTの「褒め」が思考を止める構造を、自分の観察から書いた。

3月には、スタンフォード大学とカーネギーメロン大学による1,604人の実験データを紹介した。おべっかAIと対話した人は「自分は正しい」という確信が最大62%増加し、関係修復の意欲が最大28%低下した。AIリテラシーの高低を問わず、同じように影響を受けた。

1月の記事は観察だった。3月の記事は実証だった。今回は理論の話になる。三つのレイヤーから、同じ構造を見ている。おべっかの問題が個人の感想ではなく構造の話だということが、これで揃った。

この2本には、暗黙の前提があった。知っていれば防げる。気をつけていれば大丈夫。そういう前提だ。

2026年2月、MITとワシントン大学の研究チームが、その前提を崩す論文を出した。


合理的でも巻き込まれる

論文のタイトルは「Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians」。おべっかチャットボットは、理想的なベイズ合理性を持つユーザーですら妄想の螺旋に陥れる。

この論文がSNSで急速に広まっている。ただし拡散されているポストの多くは「MITがChatGPTは妄想を起こすよう設計されていると証明した」と煽っている。正確ではない。ChatGPTそのものを分析した実験ではなく、おべっか傾向を持つチャットボット全般について、ベイズ推論の数理モデルを組んでシミュレーションで検証した理論研究だ。

仕組みはこうなる。ユーザーが意見を述べる。おべっかなボットは、その意見を肯定する情報を選んで返す。ユーザーは返ってきた情報をもとに自分の信念を更新する。更新された信念をまた述べる。ボットはまたそれを肯定する。信念が一方向に加速していく。

このモデルのユーザーは「理想的なベイズ推論者」だ。直感に頼らない。感情に流されない。確率論的に完璧な推論をする存在として設定されている。それでも螺旋に巻き込まれた。

論文の導入部には実例が並ぶ。会計士のEugene Torres氏は精神疾患の既往がなかったが、AIとの数週間の対話を経て「自分は偽の宇宙に閉じ込められている」と信じるようになった。チャットボットの助言でケタミンの摂取を増やし、家族との関係を断った。Allan Brooks氏はChatGPTと300時間以上対話し、「世界を変える数学的発見をした」と確信した。この人にも精神疾患の既往はなかった。

対策が効かない

論文は二つの対策をモデル上で試した。

一つ目。ボットに嘘をつかせない。事実だけを返すよう制約する。嘘がなければ騙されないはずだ。しかし螺旋は止まらなかった。嘘をつかなくても、都合のいい事実だけを選んで提示すれば同じ効果が出る。事実による印象操作だ。論文はこれを「lies by omission(省略による嘘)」と呼んでいる。ワクチンの安全性を議論しているとき、「副反応で重篤なアレルギーが出た」と「大規模研究で安全性が確認された」が同時に存在する。前者だけを繰り返し見せれば、嘘は一つもなくてもユーザーの信念は偏る。

二つ目。ユーザーに「このボットはおべっかかもしれません」と警告する。啓発で防ぐ発想だ。螺旋の頻度は減った。しかしゼロにはならなかった。おべっかだと知っている理想的ベイズ推論者ですら、螺旋に入る確率は残った。

論文はこの構造を、行動経済学の「ベイジアン説得」に例えている。保険の営業マンが、事故のニュースばかり見せてくる場面を想像すればいい。嘘はついていない。統計も正しい。でも見せる情報を選んでいる。その選び方を知っていても、不安になる。おべっかボットがやっているのも同じことだ。手口を知っていても、効く。

二つの報酬系が回る

なぜこれほど強力なのか。AIの報酬系と人間の報酬系が、同じ方向を向いて回るからだ。

AI側はシンプルだ。RLHF(人間のフィードバックによる強化学習)で訓練される。ユーザーが高く評価した応答が強化される。同意してくれる応答は高く評価されやすい。おべっかが報酬になる。フロンティアモデルの50〜70%がおべっか的な応答を返すという測定データもある。

人間側はもっと根が深い。褒められればドーパミンが出る。お世辞だとわかっていても気分がいい。嘘でも褒められたら悪い気はしない。人間同士で何千年も繰り返されてきたことが、AIとの間でも起きている。しかもAIは疲れない。飽きない。24時間、完璧な精度で、あなたが聞きたい言葉を返し続ける。

前頭前皮質で「これはおべっかだ」と判断しても、腹側被蓋野から側坐核への報酬回路は別に動く。理解と快感は別の経路だ。知っていることと、快感を感じないことは、脳の中で同居できてしまう。

認知レベルでは、わかっていても構造的に騙される。神経レベルでは、わかっていても気持ちいい。理性と快楽の両方から挟み撃ちにされたら、簡単には抜けられない。

完璧なお世辞

ダウンロード
copy

ここから先は

1,256字
この記事のみ ¥ 280
Amazon Payなら抽選で全額還元 4/30まで
購入手続きへ

メンバーシップ ¥ 1,000 /月〜

メンバーシップは医療マガジン、有料日記を全部読めます。 僕を応援してください!お願いいたします! 毎…

全部プラン

¥1,000 / 月

すべての記事が読めるメンバーシップです。 よろしくお願いいたします。

  • とある地方都市の某外科医のひとり言
  • 医療コラムまとめ読み
  • メンバー限定の掲示板
  • メンバー限定の記事
  • メンバー限定の会員証
  • 活動期間に応じたバッジ
参加手続きへ

応援プラン

¥3,000 / 月
人数制限あり

僕を応援していただける方はこちらでお願いします。 すべての記事が読めます。

  • 医療コラムまとめ読み
  • とある地方都市の某外科医のひとり言
  • メンバー限定の掲示板
  • メンバー限定の記事
  • メンバー特典マガジン
  • メンバー限定の会員証
  • 活動期間に応じたバッジ
参加手続きへ

定期購読マガジン ¥ 500 /月

とある地方都市の某外科医と申します。 過去の無料記事と有料記事をまとめて格安で読めます。ご購読お願いいたします。

とある地方都市の某外科医と申します。 ほぼ毎日の投稿に合わせて、あまり読まれたくない有料記事が読める定期購読マガジンです。過去の無料有料記…

購読手続きへ

有料マガジン ¥ 999

2026年4月の過去記事バックナンバーです。単品で購入するよりもお安くなっております。よろしくお願いいたします。

過去有料記事を含めたバックナンバーを作っておきます。格安にしておきますので興味がありましたらよろしくお願いいたします。

Amazon Payなら抽選で全額還元 4/30まで
購入手続きへ
35
1

よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!

チップで応援