レコメンドシステムにおけるクリエイターのインセンティブ:マルチエージェント・バンディットにおける安定的で公正な協調のための協力的ゲーム理論アプローチ

arXiv cs.LG / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ユーザのフィードバックを、移転可能効用(TU)をもつ協力ゲームの枠組みとして、複数のコンテンツクリエイター間のインセンティブ設計を、マルチエージェント確率的線形バンディットとしてモデル化することで研究する。
  • 同一(ホモジニアス)なエージェントで行動集合が固定されている場合、著者らは、軽微な条件のもとで得られるTUゲームが凸であることを示し、安定性と公正性を提供するために、非空のコアを保証し、そのコアにはシャープレイ値が含まれることを示す。
  • 異質(ヘテロジニアス)なエージェントの場合でもゲームのコアは非空であるが、凸性やシャープレイ値がコアのメンバーであることはもはや保証されない。これにより、別の支払い(パイアウト)メカニズムが動機づけられる。
  • 著者らは、コアに属し、シャープレイの公理の4つのうち3つを満たす、後悔(regret)に基づく支払いルールを導入し、より一般的な設定において公正な協調を実現することを目指す。
  • MovieLens-100kに関する実験では、実証的な支払いがシャープレイに基づく公正性と一致する条件、ならびに異なる環境や学習アルゴリズムのもとで支払いがどのように乖離するかを分析する。

Abstract

オンライン推薦プラットフォームにおけるユーザの相互作用は、コンテンツ制作者間の依存関係を生み出す。ある制作者のコンテンツに対するフィードバックは、そのシステムの学習に影響し、さらに他の制作者のコンテンツが露出されることにも波及する。このような状況におけるインセンティブを分析するために、本研究では、協調を、移転可能効用(TU)の協力ゲームの定式化を伴うマルチエージェント確率的線形バンディット問題としてモデル化する。そこでは、連合(コアリション)の価値は、その構成員の累積レグレット(後悔)の総和の負値に等しいものとする。 一致(同質)したエージェントが、固定された行動集合を持つ場合、穏やかなアルゴリズム上の条件のもとで、得られるTUゲームは凸となることを示す。これにより、空でないコアが存在し、それはシャプレイ値を含むため、安定性と公平性の双方が保証される。エージェントが異質な場合でも、ゲームは空でないコアを持つが、凸性やシャプレイ値のコア所属はもはや保証されない。これに対処するために、本研究では、4つのシャプレイ公理のうち3つを満たし、さらにコアにも属する、単純なレグレットに基づく支払いルールを提案する。MovieLens-100kデータセットでの実験により、経験的な支払いが、さまざまな状況やアルゴリズムにおいて、シャプレイの公平性に—およびそれから—どのように整合・乖離するかを示す。