Influence関数グラデントによる凹型の統計的ユーティリティ最大化バンディット

arXiv cs.LG / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長期的な報酬分布の統計的機能を最大化する（期待報酬の単純な最大化ではなく）凹型ユーティリティを通じたマルチアーム・バンディットを扱っています。
緩やかな連続性の仮定のもとで、無限ホライズン問題が、単体上の重みでパラメータ化された定常混合政策の最適化として書き換えられることを示しています。
凹型ユーティリティが微分可能な場合、影響関数（influence-function）計算を用いて、バンディットフィードバックから確率的勾配推定器を導出します。
彼らは、切り詰めた単体上でのエントロピー正則化ミラー・アセント法を提案し、乗法的重み更新と影響関数のプラグイン推定により実装します。
分散やWasserstein目的などの一般的な凹型分布ユーティリティに適用し、影響関数の厳密実装とプラグイン実装を比較する数値実験を行っています。

要旨: 本研究では、目的が期待報酬そのものではなく、長期的な報酬分布の統計的汎関数であるような確率的マルチアーム・バンディットを考察する。穏やかな連続性の仮定のもとで、無限ホライズン問題は定常な混合方策に対する最適化へと帰着することを示す。すなわち、単体上の各重みベクトル\(w\) は混合則 \(P^w\) を誘導し、性能は凸性のある（凹）効用 \(U(w)=\mathfrak U(P^w)\) によって測定される。
微分可能な統計的効用に対しては、影響関数の計算（influence-function calculus）を用いて、バンディットのフィードバックから確率的勾配推定量を導出する。これにより、切り詰めた単体上でのエントロピー的ミラー・アセント法（mirror-ascent algorithm）を構築する。実装は、乗法的重み更新と、影響関数のプラグイン推定により行う。さらに、ミラー・アセントの最適化誤差と、影響関数を推定することによって生じるバイアスとを切り分けた形の後悔（regret）境界を確立する。
この枠組みは一般の凹な分布ベースの効用に対して開発され、分散およびワッサースタイン（Wasserstein）目的関数を通じて具体的に示す。数値実験では、厳密な影響関数の実装とプラグインによる影響関数の実装とを比較する。