ソフトマックス・マルチアームド・バンディットにおける消失するL2正則化

arXiv stat.ML / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ソフトマックス写像で方策を決めるマルチアームド・バンディット(MAB)アルゴリズムを対象に、平均報酬から二次項(L2正則化)を引く形のソフトマックス・ポリシーグラディエントを扱います。
  • 先行研究が埋め切れていなかった点として、正則化パラメータがゼロに近づく(消失する)場合の収束を解析するための適切な理論枠組みが見つかっていないことを問題にしています。
  • 著者らは「消失するL2正則化」領域に対して新しい理論的収束結果を示し、正則化が消えていくときの振る舞いを保証します。
  • さらに標準的なベンチマークで実験を行い、実際にはL2正則化が極めて小さい設定が数値的に有利になり得ることを確認します。
  • 理論と実践の両面から、この特定のソフトマックスMAB/ポリシーグラディエント設定において、収束の成立と数値挙動の改善を結び付けています。

要旨: 多腕バンディット(MAB)アルゴリズムは強化学習の基礎を成すものであり、理論的にも数値的にも研究されてきました。最も一般的に用いられる実装の1つは、最適方策を指示するためのソフトマックス写像であり、REINFORCEを含む下流のアルゴリズムの基盤として機能してきました。従来の素朴な手法とは異なり、ここではL2正則化付きソフトマックス・ポリシー勾配を考えます。これは、平均報酬から2次項を減算するものです。正則化の有無における漸近挙動を解析するための適切な理論的枠組みを特定できないことが、これまでの研究で指摘されていました。すなわち、正則化パラメータが消失する極限での収束を解析するために、凸性を活用する先行研究は成功していませんでした。ここでは理論的な収束結果を証明し、この領域ではL2正則化が標準的なベンチマークにおいて数値的に有利であることを経験的に確認します。