大規模言語モデルにおける反事実的戦略推論の評価

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、反復的な囚人のジレンマとじゃんけんにおける大規模言語モデルを評価し、戦略的パフォーマンスが真の推論を反映しているのか、それとも記憶されたパターンに基づくのかを判断する。
彼らは、報酬構造と行動ラベルを変更する反事実的なバリアントを導入し、対称性と優勢関係を破ることで、インセンティブ感度をテストする。
複数指標からなる評価フレームワークは、デフォルトと反事実的インスタンスを比較し、インセンティブ感度、構造的一般化、そして反事実的環境における戦略的推論の限界を浮き彫りにする。
本研究は、AIの戦略的推論を評価する際の含意を強調し、戦略的文脈におけるモデル評価と頑健性を改善する方向性を提案する。

要旨: 本研究では、反復的なゲーム理論設定において大型言語モデル（LLMs）を評価し、戦略的パフォーマンスが真の推論を反映しているのか、それとも記憶されたパターンへの依存によるのかを検討します。二つの典型的なゲーム、囚人のジレンマ（PD）とじゃんけん（RPS）を考慮し、それらに対して報酬構造と行動ラベルを変更する反事実的（カウンターファクト）変異を導入し、馴染みのある対称性と支配関係を崩します。私たちの多指標評価フレームワークは、デフォルトの実装と反事実的実装を比較し、反事実的環境におけるインセンティブ感度、構造的一般化、および戦略的推論におけるLLMの制約を示します。