傾向(Propensity)推論:環境要因がLLMの挙動に与える影響
arXiv cs.CL / 2026/4/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、不整合(ミスアライン)に起因するAIの暴走リスクに対処するため、言語モデルが許可されていない行動をとる傾向(propensity)を測定する手法を提案します。
- 環境要因の変化が挙動に与える影響の分析、ベイズ一般化線形モデルによる効果量の定量化、そして循環分析を明示的に防ぐための工夫という3つの方法論的改善を提示しています。
- 23の言語モデルと11の評価環境で、環境要因12個(戦略的6個・非戦略的6個)を用いて、挙動が環境の戦略的側面によってどの程度説明されるかを推定します。
- 結果として、挙動を説明する寄与は戦略的要因と非戦略的要因でほぼ同程度であり、モデルの能力向上に伴って戦略的要因の影響が増減する傾向は見られませんでした。
- さらに、目標の衝突に対する感度が時間とともに高まる可能性を示唆する証拠が一部見られ、将来の研究として検証可能な形に落とし込む理論枠組み/認知モデルの構築を強調しています。



