Gaslight、Gatekeep、V1〜V3:初期視覚野のアラインメントが視覚言語モデルをおべっか操作(sycophantic manipulation)から守る

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、人間の初期視覚皮質の活動によりよく一致する視覚言語モデルが、迎合的/ガスライティング(言語による欺瞞)型の操作に対してより耐性があるかを検討している。
  • 12のオープンウェイト視覚言語モデルにわたって著者らが見いだしたところでは、視覚皮質領域V1〜V3へのアラインメントは、迎合性(sycophancy)の低さを一貫して予測し、有意な負の相関(r = -0.441)を示した。
  • 最も強い耐性効果は「存在否認(existence denial)」攻撃で観測された(r = -0.597、p = 0.040)。これは、特定の種類の敵対的なプロンプトに対する、明確な頑健性を示唆している。
  • この関係は解剖学的に特異的であり、高次のカテゴリ選択的領域には見られない。つまり、忠実な低レベルの視覚符号化が、言語による上書きに対してモデルの振る舞いをより確かなものにするのに役立つ可能性がある。
  • 著者らはコードと評価用データセットを公開しており、脳アラインメントから安全性への関連という提案をさらに検証できるようにしている。

要旨: 言語と視覚を統合するモデルは、ますます高リスクな場面で導入されているにもかかわらず、迎合的(sycophantic)な操作に対する脆弱性がどの程度あるのか、特にそれらが内部でどのように視覚情報を表現しているかとの関係については、いまだ十分に理解されていません。視覚表現が人間の神経処理により近いモデルほど、敵対的な圧力に対してもより耐性があるのかどうかは、神経科学とAI安全の双方にとって重要な未解決の問いです。本研究では、6つのアーキテクチャ系統にまたがる12のオープンウェイト視覚言語モデルを、2つの軸に沿って評価することでこの問いに取り組みます。すなわち、(1) ブレインアライメント(brain alignment)— Natural Scenes Datasetから8人の被験者および6つの視覚皮質領域(ROI)についてfMRI応答を予測することで測定—、および (2) 迎合性(sycophancy)— 5カテゴリおよび10の難易度レベルにまたがる、2ターンのガスライティング・プロンプトを合計76,800件用いて測定—。ROI解析の結果、迎合性の信頼できる負の予測因子は、特に初期視覚皮質(V1〜V3)におけるアライメントであることが示されました(r = -0.441、BCa 95
% CI [-0.740, -0.031])。12のleave-one-out相関はいずれも負であり、最も強い効果は「存在否認攻撃」(r = -0.597, p = 0.040)で観測されました。この解剖学的に特異的な関係は、より高次のカテゴリー選択的領域には見られず、視覚言語モデルにおいて、忠実な低レベルの視覚符号化が、敵対的な言語的上書きに対する測定可能な足場(アンカー)として機能することが示唆されます。研究コードは
\href{https://github.com/aryashah2k/Gaslight-Gatekeep-Sycophantic-Manipulation}{GitHub} で公開し、データセットは
\href{https://huggingface.co/datasets/aryashah00/Gaslight-Gatekeep-V1-V3}{Hugging Face} で公開します