協力ゲーム理論のシェープリー値に基づく、予算付き組合せ型マルチアームバンディットにおける公平性のメリトクラティック設計

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、予算付き組合せ型マルチアームバンディットにおけるフル・バンディットフィードバック（BCMAB-FBF）下での公平性フレームワークを提案しており、個々のアームの寄与が直接観測できないという難しさに対応しています。
このより困難なフィードバック設定でアーム寄与を定量化するために、著者らは古典的なシェープリー値を拡張し、連合サイズが最大Kに制限されたときの限界寄与を表すK-シェープリー値を導入し、重要な公理（対称性・線形性・ヌルプレイヤー・効率性）を満たすことで一意に特徴付けられることを示しています。
さらに、価値関数が未知の状況でK-シェープリー値を適応的に推定する公平性配慮型バンディットアルゴリズムK-SVFair-FBFを提案します。
この手法は、フルフィードバックから価値関数を学習するだけでなく、モンテカルロ近似に起因するノイズも軽減する設計であり、公平性に関するリグレットについて理論的にO(T^{3/4})の上界を証明しています。
フェデレーテッドラーニングとソーシャル影響最大化のデータセットでの実験により、既存ベースラインよりも公平性と性能の両面で有効であることが示されています。

Anthropic News

日経XTECH

Qiita

Zenn

Reddit r/LocalLLaMA