CRAFT：部分情報下における現実志向のマルチエージェント協調

arXiv cs.CL / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本稿は、部分情報下での実践的な会話・協調を評価するためのマルチエージェント・ベンチマーク「CRAFT」を新たに提案しています。
各エージェントは個別に観測しきれない状況で、自然言語による“実践的推論”を通じて共有3D構造を構築することが課題として定式化されています。
失敗要因を「空間グラウンディング」「信念（belief）モデリング」「実践的コミュニケーション」へ分解する診断フレームワークと、行動失敗プロファイルの分類（タクソノミー）を提示しています。
多様な推論モデル（オープンウェイト8、フロンティア7）を評価した結果、推論力の強さが協調性能に必ずしも結びつかず、個々の通信改善が協働成功を保証しないことが示されています。
現行の言語モデルにおいてマルチエージェント協調は根本的に未解決の難題であるという結論と、コード公開（GitHub）が案内されています。

要旨: 厳密な部分情報のもとで、大規模言語モデルにおける実用的（プラグマティック）なコミュニケーションを評価するためのマルチエージェント・ベンチマークである CRAFT を提案します。この設定では、補完し合うものの不完全な見え方を持つ複数のエージェントが、自然言語を通じて協調しなければなりません。目的は、単一のエージェントが完全には観測できない共通の 3D 構造を構築することです。本研究ではこの問題を、マルチ送信者の実用的推論タスクとして形式化し、失敗を空間的なグラウンディング、信念（ベリーフ）モデリング、実用的コミュニケーションの誤りに分解する診断フレームワークを提供します。さらに、最先端モデルとオープンウェイト・モデルの両方における行動上の失敗プロファイルの分類法（タクソノミー）も含めます。推論モデルを含む多様なモデル群において、8 つのオープンウェイトモデルと 7 つのフロンティアモデルを対象に調査した結果、より強い推論能力が必ずしもより良い協調につながるわけではないことが分かりました。小規模なオープンウェイトモデルが、フロンティアのシステムに匹敵、あるいは上回る場合がしばしばあり、個々のコミュニケーションが改善しても、協調が成功することは保証されません。これらの結果は、現在の言語モデルにとって、マルチエージェント協調が根本的に未解決の課題であり続けることを示唆しています。コードは https://github.com/csu-signal/CRAFT で入手できます