LLMにグラフを読ませるな、グラフに考えさせよ

arXiv cs.AI / 2026/4/28

📰 ニュースModels & Research

要点

  • 明示的な信念グラフがLLMの協調マルチエージェント推論に有効かどうかは、統合アーキテクチャとモデルの強さに大きく左右されることが示されました。
  • Hanabiを用いた4つのLLMファミリにわたる制御実験では、信念グラフをプロンプト文脈として提示する場合は強いモデルではほぼ装飾的ですが、ランク付けしたショートリストで行動選択をゲートする形にすると強いモデルでも構造的に不可欠になることがわかりました。
  • 「Planner Defiance(計画の反抗)」と呼ばれる失敗モードが見つかり、一部のモデルファミリでは部分的な能力の段階で正しいプランの提案を上書きすることが示され、GeminiとLlama 70Bの間で大きな差が観測されました。
  • ゲーム全体の実験では、エージェント間の慣習と、信念グラフ構成要素を適切に組み合わせた介入が、単独のエージェント介入よりも優れることが確認されました。
  • さらに予備的なスケーリング分析では、コスト対効果は浅いグラフが最も良い一方、より深いToMグラフはプレイヤー数が多い状況で性能を損なう可能性が示唆されています。

Abstract

我々は、明示的な信念グラフが協調的なマルチエージェント推論におけるLLMの性能を向上させるかどうかを検証する。協調型カードゲームHanabiにおいて、4種類のLLMファミリーに対して3,000回超の制御された試行を通じて、我々は4つの知見を確立した。第一に、統合アーキテクチャが信念グラフの価値を左右する。プロンプト文脈として用いる場合、グラフは強力なモデルでは装飾的であり、2階層の心の理論(2nd-order Theory of Mind)において弱いモデルにのみ有益である(80% 対 10%、p<0.0001、OR=36.0)。一方で、信念グラフが順位付けされた短いリストを介して行動選択をゲートする場合、それらは強力なモデルに対してさえも構造的に不可欠になる(2nd-order ToMで 100% 対 20%、p<0.001)。第二に、「プランナの反抗(Planner Defiance)」を特定する。これは、モデルファミリー固有の失敗であり、部分的な能力の段階でLLMが正しいプランナーの推奨を上書きしてしまう(90%が上書き、複製N=20)。Geminiモデルはほぼゼロの反抗を示すのに対し、Llama 70Bは90%を示し、モデルは事実情報の文脈(委ねられる)と助言的な推奨(上書きされる)を区別できている。第三に、フルゲームの証拠により、エージェント間の慣習が単独エージェント介入をすべて上回ることが確認される(基準値から+128%、p=0.003)。また、個々の信念グラフ構成要素は、得られる改善を生み出すために組み合わせる必要がある。第四に、予備的なスケーリング分析(N=10/cell、探索的)では、グラフの深さには逓減する効用が示唆される。浅いグラフが最も良い費用対効果を提供し、より深いToMグラフはプレイヤー数が増えると有害に見える(5人プレイヤーで-1.5点、p=0.029)。