大規模言語モデルにおける戦略的推論のための先見的最適化
arXiv cs.CL / 2026/4/16
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論に焦点を当てた現在のLLMが、多対一のマルチエージェント状況における意思決定で苦戦しているのは、相手の将来の行動に対する明示的な先見(フォーサイト)モデリングが欠けているためだと主張する。
- それに対し、本論文はForesight Policy Optimization(FoPO)を提案する。これは、相手のモデリングをLLMのポリシー最適化に組み込むことで、自己の利益と相手の影響を同時に考慮できるようにする。
- 著者らは、明確なルールと適度な難易度を備えた2つの厳選されたセルフプレイ用データセット(Cooperative RSA と Competitive Taboo)を導入し、FoPOを体系的に研究することを目的とする。
- 実験の結果、FoPOは複数のLLMにおいて戦略的推論を改善するだけでなく、標準的な推論最適化のベースラインよりも、領域外の戦略的シナリオに対して汎化性能が高いことが示される。