SAVOIR：Shapleyベースの報酬帰属によるソーシャルなサボアフェア（やり取りの心得）の学習

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、対話の強化学習におけるマルチターンのクレジット割当問題を解くことで、言語エージェントに社会的知能を学習させる方法を扱っています。
エピソード全体の報酬を言語モデルで分配する既存手法は、帰属が後追いになりやすく理論的裏付けに乏しいと主張しています。
SAVOIR（ShApley Value fOr SocIal RL）は、協力ゲーム理論に基づき、期待効用の変化とShapley値を用いて発話ごとのクレジットを原理的に算出します。
SOTOPIAベンチマークの実験では、SAVOIRがあらゆる評価設定で新たな最先端性能を達成し、その7BモデルはGPT-4oやClaude-3.5-Sonnetといったプロプライエタリ製品に匹敵、または上回ることが示されています。
大規模推論モデルが一貫して劣後することから、社会的知能には純粋な分析的推論とは質的に異なる能力が必要である可能性が示唆されています。

要旨: 社会的知能、すなわち複雑な対人相互作用を切り抜ける能力は、言語エージェントにとって根本的な課題をもたらします。このようなエージェントを強化学習によって訓練するには、クレジット割当問題を解く必要があります。つまり、個々の発話が多ターン対話の結果にどのように寄与したのかを特定することです。既存のアプローチでは、エピソード単位の報酬を配分するために言語モデルを直接用いるため、帰属（アトリビューション）が後知恵的になり、理論的裏付けも欠けます。私たちは、協力ゲーム理論に基づく新しい原理的枠組みであるSAVOIR（ShApley Value fOr SocIal RL）を提案します。本手法は2つの補完的な原理を組み合わせます。期待効用のシフト（expected utility shifts）は、後知恵的な帰属から、発話を将来の望ましい軌道を可能にする戦略的ポテンシャルとして価値評価する、見通しの立つ（prospective）評価へと転換します。一方、シャプレイ値（Shapley values）は、公理的に効率性・対称性・限界性（marginality）を保証しつつ、公正なクレジット分配を実現します。SOTOPIAベンチマークでの実験により、SAVOIRはすべての評価設定において新たな最先端の性能を達成することが示されました。さらに、7BモデルはGPT-4oやClaude-3.5-Sonnetを含む各種のプロプライエタリモデルと同等以上の性能を発揮します。特に、大規模な推論モデルでさえ一貫して劣後しており、社会的知能は分析的推論とは質的に異なる能力を必要とすることを示唆しています。

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

Dev.to

SAVOIR：Shapleyベースの報酬帰属によるソーシャルなサボアフェア（やり取りの心得）の学習

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に