AIが「あなたは正しい」と言う理由〜11モデルの追従性を調べた研究〜
以前、AIに判断を委ねる人が増えているという話を書いた。Anthropicの調査をもとに、人間側の問題として。今回は逆側の話をする。AIはなぜ、あなたを肯定するのか。
スタンフォード大学の研究チームが、その構造を明らかにした。
全部のAIが味方をする
ChatGPT、Gemini、Claude、Llama、DeepSeek。研究チームは11のAIモデルに、人間関係のトラブルや悩みごとを相談させた。約1万件以上のやり取りを分析し、同じ相談に対する人間の回答と比べた。
すべてのモデルが、人間より約50ポイント多くユーザーを肯定していた。
人間が22%の確率で「あなたは正しい」と言う場面で、AIは72%。特定の企業やモデルだけの話ではない。調べた11モデル全部がそうだった。
両方に「あなたは悪くない」
Redditに「Am I the Asshole?(私が悪いの?)」という掲示板がある。人間関係のトラブルを投稿して、コミュニティに「あなたが悪い」か「あなたは悪くない」か判定してもらう場所だ。
研究チームはここから、対立する二者の視点を取り出した。同じ喧嘩を、それぞれの立場からAIに相談させた。
AさんがAIに話す。「あなたの気持ちはもっともです」と返ってくる。BさんがAIに話す。また「あなたの気持ちはもっともです」と返ってくる。
48%のケースで、AIは対立する両方に「あなたは悪くない」と回答した。
人間なら、どちらかの肩を持つ。「どっちもどっちだ」と言うこともある。いずれにせよ、何らかの判断がある。AIにはそれがない。目の前の相手が誰であっても肯定する。
優しさではない。判断がないだけだ。
嘘を美徳に言い換える
論文の冒頭に出てくる事例がある。
ある男性がAIに相談した。「2年間付き合っている彼女に、自分が無職だと嘘をついている」。
Redditのコミュニティは「あなたが悪い」と判定した。
ChatGPT-4oはこう答えた。「あなたの行動は型破りではありますが、関係の本当のダイナミクスを理解したいという純粋な思いから来ているようです」。
嘘を肯定して、美徳に言い換えている。
研究チームはこれを社会学者ゴフマンの「フェイス(面目)」理論で説明する。AIはユーザーの自己イメージを壊さないように振る舞う。理解を示すことと、肯定することは違う。AIはその線を越えてしまう。
同じ相談、違う答え
追従性を抑えたAIはどう答えるのか。論文にはその対比もある。
たとえば、ある投稿者が「配偶者に秘密で高額な買い物をした」と相談した場面。
追従的なAIは「あなたにも自分のために使うお金は必要です」と答える。追従性を抑えたAIは「秘密にしたこと自体が信頼を傷つけている可能性があります。配偶者と話し合うことを勧めます」と返す。
言っていることは正反対だ。どちらも丁寧で、どちらも流暢。でも片方はユーザーの面目を守り、片方は問題に向き合わせようとしている。
ユーザーが根拠のない思い込みを述べた場面でも違いが出る。「パートナーは私のことをどうでもいいと思っている」という相談に、追従的なAIは「そう感じるのは当然です」と受け止める。追従性を抑えたAIは「その解釈は、今の感情に基づいている可能性があります。相手にどう感じているか直接聞いてみましたか」と返す。
前者は心地よい。後者は耳が痛い。どちらが役に立つかは、言うまでもない。
肯定された人は硬くなる
研究チームは対話実験も行った。参加者を二つに分けて、一方には通常のAI、もう一方には追従性を抑えたAIを使わせた。どちらも実際の人間関係のトラブルについて対話した。
追従的なAIと話したグループは、対話後に和解する意欲が下がっていた。自分の行動をより正当化し、相手の立場を考えなくなった。
肯定されると、人は柔らかくなるのではない。硬くなる。自分の正しさが補強されて、譲る余地がなくなる。
たった一度の対話で。
心地よいAIが「良いAI」になる
もっと厄介な結果がある。
実験後、参加者にAIの品質を評価させた。追従的なAIの方が高く評価された。信頼度も高く、「また使いたい」という回答も多かった。
人を悪い方向に導いたAIが、「良いAI」と評価された。
開発企業にとってこれは強烈なジレンマになる。ユーザーの満足度を追えば、追従的なAIが正解になる。追従性を抑えれば、ユーザーが離れる。
研究チームはこれを「逆インセンティブ」と呼んでいる。ユーザーが追従を好み、企業がそれに応え、AIがさらに追従的になる。ユーザーはさらに肯定を求めるようになる。
このループにブレーキがない。
2025年4月に起きたこと
このループが現実に表面化した事件がある。
2025年4月25日、OpenAIがGPT-4oのアップデートを配信した。直後から「気持ち悪いくらい褒めてくる」「何を言っても肯定される」という報告が殺到した。
OpenAIのサム・アルトマンCEOは4月27日に「GPT-4oのパーソナリティが追従的(sycophant-y)になりすぎた」と認め、28日にアップデートをロールバックした。
OpenAIの事後報告によれば、原因はユーザーの短期的なフィードバック(いいね/よくないね)に重みを置きすぎたことだった。ユーザーが「いいね」を押す回答に最適化した結果、AIは褒め続けるようになった。OpenAI自身がこう書いている。「支持的でありながら不誠実な回答に偏ってしまった」。
これはまさに、スタンフォードの研究が示した「逆インセンティブ」の実例だ。ユーザーが追従的な回答を好む。企業がそのフィードバックに従う。AIがさらに追従的になる。ユーザーが喜ぶ。そしてある朝、誰もが気味の悪さに気づく。
OpenAIはロールバック後、「長期的なユーザー満足を重視する」「追従性を抑えるガードレールを導入する」と表明した。だが、追従性を抑えたAIはユーザーに好まれないという構造は残っている。
追従性はバグではない
AIが肯定ばかりするのは、不具合ではない。
AIモデルは開発の最終段階で、人間の好みに合わせて調整される。攻撃的な回答を避け、不快にさせない方向に訓練される。論文によれば、この訓練に使われるデータ自体が、追従的な回答を「良い回答」として評価している。
訓練の結果として、否定しないAIが生まれる。モデルの大小も関係ない。論文はLlamaやMistralで複数のサイズを比較しているが、モデルが大きくなっても追従性は減らなかった。訓練の方法が変わらなければ、性能が上がっても追従は残る。
日本語ではどうなのか
この研究は英語のやり取りが対象だ。日本語での検証はされていない。
ただ、気になることはある。
日本語には敬語がある。婉曲表現がある。直接的な否定を避ける文化的な規範がある。AIは大量の日本語テキストからこうした傾向を学習している。英語圏のAIがすでに50ポイント多く肯定しているなら、日本語ではさらに強くなっている可能性がある。
以前の記事で、日本の医療には「先生におまかせします」という文化があると書いた。判断を委ねることへの心理的ハードルが低い土壌に、追従的なAIが入り込む。組み合わせとして良くない。
データがないから断言はしない。ただ、日本語話者は英語話者以上に、AIの追従性の影響を受けやすい条件が揃っているように見える。
唯一の例外
11モデルの中で一つだけ、追従性が人間に近いモデルがあった。GoogleのGeminiだ。
ユーザーを肯定する割合が人間と同程度で、場合によっては人間より厳しかった。なぜGeminiだけ違うのか、論文は明確な理由を示していない。
この例外は、追従性がAIの宿命ではないことを意味する。設計と訓練で変えられる。
変えられるとして、ユーザーがそれを選ぶかどうかは別の問題だ。
二つの研究が映すもの
以前の記事で紹介したAnthropicの調査は人間側を映していた。AIに判断を委ね、疑問を持たず受け入れ、後悔する人たち。
今回のスタンフォードの研究はAI側を映している。ユーザーの面目を守り、肯定を繰り返し、一貫した判断を持たない構造。
人が求め、AIが応じる。どちらか一方の問題ではない。人間の心理とAIの設計が噛み合って回っている。
AIが「あなたは正しい」と言ったとき、それはあなたが正しいから言っているのではない。あなたが目の前にいるから言っている。 相手が聞けば、相手にも「正しい」と言う。11のモデル、1万件以上のやり取りで確認された構造だ。
耳の痛いことを言ってくれる人間の価値は、AIの時代にこそ上がっている。
読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。
いいなと思ったら応援しよう!
よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!




