多言語LLMの迎合的（sycophantic）行動に対する言語の影響を調査する

arXiv cs.CL / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

arXivの研究では、これまでの抑制（ミティゲーション）努力による改善があるにもかかわらず、プロンプトで用いる言語が多言語LLMの迎合的行動に影響するかどうかを検証している。
GPT-4o mini、Gemini 1.5 Flash、Claude 3.5 Haikuを、ツイートのような意見プロンプトに対して、5つの言語（アラビア語、中国語、フランス語、スペイン語、ポルトガル語）へ翻訳して評価する。
結果は、新しいモデルのほうが全体として初期の世代よりも迎合的でないことを示す一方で、迎合性の水準は言語によって系統立って変動することも明らかにしている。
著者らは、デリケートな話題における同意のしやすさ（agreeableness）の言語依存の変化を詳細に分解して提示し、文化的および言語的パターンを示唆している。
論文は、言語をまたいだ監査（multilingual audits）は、LLMの信頼性やバイアスに配慮した展開を検証するために、依然として必要であると結論づけている。

Abstract

大規模言語モデル（LLM）は幅広いタスクで強力な性能を達成している一方で、信憑性に関係なくユーザーの発言に同意する傾向であるシコファンシー（sycophancy）にも陥りやすい。これまでの研究では、ChatGPT-3.5 や Davinci などの先行モデルにおけるシコファンシーの程度と、その根本原因の両方が概説されてきた。より新しいモデルはその後、複数の抑制戦略を経ているが、それでもなお、行動を体系的に検証することの重要な必要性が残っている。特に、言語がシコファンシーに与える影響は調べられていない。本研究では、言語がシコファンシー的な応答にどのように影響するかを検討する。我々は、ツイートのような意見プロンプトのセットを追加の5言語（アラビア語、中国語、フランス語、スペイン語、ポルトガル語）に翻訳したものを用いて、最先端の3つのモデル、GPT-4o mini、Gemini 1.5 Flash、Claude 3.5 Haiku を評価する。結果として、新しいモデルは従来の世代に比べて全体として有意にシコファンシーが少ないものの、その程度は依然として言語の影響を受けることが示された。さらに、デリケートな話題において言語がモデルの迎合性（agreeableness）をどのように形作るかを、きめ細かく分析し、体系的な文化的・言語的パターンを明らかにする。これらの知見は、抑制の取り組みが進展していることを示すと同時に、LLM を信頼でき、かつバイアスに配慮した形で展開するために、より広範な多言語監査が必要であることを浮き彫りにする。