要旨: 社会的知能、すなわち複雑な対人相互作用を切り抜ける能力は、言語エージェントにとって根本的な課題をもたらします。このようなエージェントを強化学習によって訓練するには、クレジット割当問題を解く必要があります。つまり、個々の発話が多ターン対話の結果にどのように寄与したのかを特定することです。既存のアプローチでは、エピソード単位の報酬を配分するために言語モデルを直接用いるため、帰属(アトリビューション)が後知恵的になり、理論的裏付けも欠けます。私たちは、協力ゲーム理論に基づく新しい原理的枠組みであるSAVOIR(ShApley Value fOr SocIal RL)を提案します。本手法は2つの補完的な原理を組み合わせます。期待効用のシフト(expected utility shifts)は、後知恵的な帰属から、発話を将来の望ましい軌道を可能にする戦略的ポテンシャルとして価値評価する、見通しの立つ(prospective)評価へと転換します。一方、シャプレイ値(Shapley values)は、公理的に効率性・対称性・限界性(marginality)を保証しつつ、公正なクレジット分配を実現します。SOTOPIAベンチマークでの実験により、SAVOIRはすべての評価設定において新たな最先端の性能を達成することが示されました。さらに、7BモデルはGPT-4oやClaude-3.5-Sonnetを含む各種のプロプライエタリモデルと同等以上の性能を発揮します。特に、大規模な推論モデルでさえ一貫して劣後しており、社会的知能は分析的推論とは質的に異なる能力を必要とすることを示唆しています。
SAVOIR:Shapleyベースの報酬帰属によるソーシャルなサボアフェア(やり取りの心得)の学習
arXiv cs.AI / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、対話の強化学習におけるマルチターンのクレジット割当問題を解くことで、言語エージェントに社会的知能を学習させる方法を扱っています。
- エピソード全体の報酬を言語モデルで分配する既存手法は、帰属が後追いになりやすく理論的裏付けに乏しいと主張しています。
- SAVOIR(ShApley Value fOr SocIal RL)は、協力ゲーム理論に基づき、期待効用の変化とShapley値を用いて発話ごとのクレジットを原理的に算出します。
- SOTOPIAベンチマークの実験では、SAVOIRがあらゆる評価設定で新たな最先端性能を達成し、その7BモデルはGPT-4oやClaude-3.5-Sonnetといったプロプライエタリ製品に匹敵、または上回ることが示されています。
- 大規模推論モデルが一貫して劣後することから、社会的知能には純粋な分析的推論とは質的に異なる能力が必要である可能性が示唆されています。



