大規模言語モデルにおける戦略的推論のための先見的最適化

arXiv cs.CL / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論に焦点を当てた現在のLLMが、多対一のマルチエージェント状況における意思決定で苦戦しているのは、相手の将来の行動に対する明示的な先見(フォーサイト)モデリングが欠けているためだと主張する。
  • それに対し、本論文はForesight Policy Optimization(FoPO)を提案する。これは、相手のモデリングをLLMのポリシー最適化に組み込むことで、自己の利益と相手の影響を同時に考慮できるようにする。
  • 著者らは、明確なルールと適度な難易度を備えた2つの厳選されたセルフプレイ用データセット(Cooperative RSA と Competitive Taboo)を導入し、FoPOを体系的に研究することを目的とする。
  • 実験の結果、FoPOは複数のLLMにおいて戦略的推論を改善するだけでなく、標準的な推論最適化のベースラインよりも、領域外の戦略的シナリオに対して汎化性能が高いことが示される。

Abstract

大規模言語モデル(LLM)における推論能力は、これまで概ね大きく進歩してきました。しかし、明示的な先見(フォアサイト)モデリングが欠如しているため、既存の推論ベースLLMがマルチエージェント環境において効果的な意思決定能力を発揮することは、いまだに困難です。そこで、相手の振る舞いを見越し、その将来の可能な行動を予測するという、最も基本的な能力である戦略的推論を導入し、上記の問題の緩和を目指します。戦略的推論はマルチエージェント環境での効果的な意思決定にとって基礎となる一方、LLM向けの既存の推論強化手法は、その先見としての性質を明示的には捉えていません。本研究では、LLMにおける戦略的推論を強化するために先見方策最適化(Foresight Policy Optimization; FoPO)を提案します。FoPOは、方策最適化へ相手(対戦相手)のモデリング原理を統合することで、自身の利益と相手からの影響の両方を明示的に考慮できるようにします。具体的には、協調RSA(Cooperative RSA)および競争タブー(Competitive Taboo)という2つの厳選データセットを構築します。これらは、精巧に設計されたルールと中程度の難易度を備えており、自分自身との対戦(self-play)フレームワークにおいてFoPOを体系的に検証することを容易にします。実験の結果、FoPOは、サイズや出自の異なる複数のLLMにわたって、戦略的推論を大きく向上させることが示されました。さらに、FoPOで学習されたモデルは、領域外の戦略シナリオに対して強力に一般化でき、標準的なLLM推論最適化のベースラインを大幅に上回ります。