要旨: 大規模言語モデルは多くの領域で顕著な能力を示す一方で、社会的知能—社会的手がかりの認知、心的状態の推論、適切な応答生成の能力—は依然として重要な課題であり、特に効果的な人間とAIの協働や人間のニーズに真に応えるAIの開発において不可欠である。現行のモデルは本質的な社会的推論ではなく、表面的なパターンに依存することが多い。我々は、人間らしい社会的知能を育成するには近道を許さない困難な事例での訓練が必要だと主張する。このために、社会的推論のための困難な訓練例を提供する敵対的ベンチマークであるToMBench-Hardを導入した。これを基盤として、Social-R1という強化学習フレームワークを提案し、多次元的な報酬によりモデルの推論を人間の認知と整合させる。Social-R1は結果に基づくRLとは異なり、推論過程全体を監督し、構造的整合性、論理的整合性、情報密度を強制する。結果は、我々の手法により4Bパラメータモデルがはるかに大規模なモデルを凌ぎ、8つの多様なベンチマークにわたって強固に一般化可能であることを示している。これらの知見は、困難な訓練事例と軌跡レベルでの推論整合によって効率的かつ信頼できる社会的知能へ向かう道筋を示すものである。
Social-R1:LLMにおける人間らしい社会的推論の実現に向けて
arXiv cs.AI / 2026/3/11
Ideas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデルにおける人間らしい社会的知能の実現という課題に取り組み、社会的手がかりの認知、心的状態の推論、適切な応答生成に焦点を当てている。
- ToMBench-Hardという、LLMが表面的な近道を使った社会的推論を避けるための難しい訓練例を提供する敵対的ベンチマークを導入している。
- Social-R1という新しい強化学習フレームワークを提案し、構造的整合性や論理的整合性を含む多次元的な報酬で推論全体を監督し、人間の認知とモデル推論の整合を図っている。
- 実験結果は、Social-R1で訓練した4Bパラメータモデルがはるかに大きなモデルを上回り、8つの多様な社会的推論ベンチマークにわたって効果的に一般化できることを示している。
- これらの成果は、困難な事例を用いた訓練と推論過程の軌跡レベルでの整合が、効率的かつ信頼性の高い社会的知能実現への有望な道であることを示唆している。