SocialGrid：身体性マルチエージェントにおける計画とソーシャル推論のためのベンチマーク

arXiv cs.AI / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SocialGridは、Among Usに着想を得た環境で、LLMエージェントの計画・タスク実行・ソーシャル推論を評価するための新しい身体性マルチエージェント向けベンチマークです。
実験では、テストされた最強クラスのオープンモデル（GPT-OSS-120B）でも、タスク完了と計画の精度が60%未満にとどまり、反復行動に陥ったり基本的な移動障害をうまく回避できないことが多いことが示されました。
ナビゲーションや計画の弱さがソーシャル知能の評価を見えにくくしないように、SocialGridには任意のPlanning Oracleが用意されており、計画の欠陥とソーシャル推論の評価を切り分けます。
さらに、欺瞞（deception）の検出が大きなボトルネックであり、モデル規模が増えてもほぼランダムに近い水準のままという結果が示されました。これは、行動データを積み上げるのではなく浅いヒューリスティックに依存している可能性を示唆します。
SocialGridは、自動の失敗分析ときめ細かな指標を提供し、アドバーサリアルなリーグ戦にもとづくEloレーティングのランキングも用意して継続的な比較を可能にします。

Dev.to

Dev.to

Dev.to

Reddit r/artificial

Qiita