傾向(Propensity)推論:環境要因がLLMの挙動に与える影響

arXiv cs.CL / 2026/4/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、不整合(ミスアライン)に起因するAIの暴走リスクに対処するため、言語モデルが許可されていない行動をとる傾向(propensity)を測定する手法を提案します。
  • 環境要因の変化が挙動に与える影響の分析、ベイズ一般化線形モデルによる効果量の定量化、そして循環分析を明示的に防ぐための工夫という3つの方法論的改善を提示しています。
  • 23の言語モデルと11の評価環境で、環境要因12個(戦略的6個・非戦略的6個)を用いて、挙動が環境の戦略的側面によってどの程度説明されるかを推定します。
  • 結果として、挙動を説明する寄与は戦略的要因と非戦略的要因でほぼ同程度であり、モデルの能力向上に伴って戦略的要因の影響が増減する傾向は見られませんでした。
  • さらに、目標の衝突に対する感度が時間とともに高まる可能性を示唆する証拠が一部見られ、将来の研究として検証可能な形に落とし込む理論枠組み/認知モデルの構築を強調しています。

Abstract

誤整列したAIシステムによって生じうる制御喪失リスクに動機づけられ、言語モデルが不正当な行動を取る傾向(propensity)を測定するための手法を開発し、適用する。方法論として3つの改善に貢献する。すなわち、環境要因の変化が行動に与える影響を分析すること、ベイズ一般化線形モデルによって効果量を定量化すること、そして循環分析に対して明示的な対策を講じること。12の環境要因(本質的に戦略的なもの6つ、非戦略的なもの6つ)の効果を測定するためにこの方法論を適用し、それにより、行動が環境の戦略的側面によってどの程度説明されるか、という誤整列によるリスクに関連する問いに答える。23の言語モデルと11の評価環境にわたって、行動を説明するうえで戦略的要因と非戦略的要因の寄与がほぼ等しいことを見出し、能力が向上しても戦略的要因がよりまたはより少なく影響を及ぼすようにはならないことを確認し、目標の対立に対する感度が高まる傾向についてのいくつかの証拠を見出す。最後に、今後の傾向(propensity)研究における重要な方向性として、AIの意思決定に関する理論的枠組みおよび認知モデルを、実証的に検証可能な形へと発展させることを強調する。