COMPASS-Hedge：世界を知らずに安全に学習する

arXiv cs.LG / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、敵対的レグレット（adversarial regret）、確率的効率（stochastic efficiency）、および固定された比較対象（コンパレータ）に対するベースラインの安全性に関する一般的な「トリレンマ」を解決するための、新しいフルインフォメーション型のオンライン学習アルゴリズムである COMPASS-Hedge を提案する。
COMPASS-Hedge は、敵対的状況ではミニマックス最適なレグレットを達成し、確率的状況では（インスタンス／ギャップに依存する）instance-optimal なレグレットを達成し、指定されたベースライン方策に対しては o(1)（対数因子で調整された）のみのレグレットで済むと主張している。
本手法はパラメータ不要であり、環境が敵対的か確率的かを事前に知る必要がなく、また問題依存のギャップの大きさに関する知識も不要である。
アルゴリズムの設計は、適応的な疑似レグレットのスケーリングと、位相（フェーズ）に基づく「攻勢（aggression）」を組み合わせ、さらに比較対象（コンパレータ）を意識した混合戦略を用いることで、3つの性能保証を統一する。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to