両立の妙:確率的・敵対的ベストアーム同定
arXiv stat.ML / 2026/4/17
📰 ニュースModels & Research
要点
- 本論文は、報酬が確率的である場合も敵対的である場合もあり得る状況での、多腕バンディットによる「ベストアーム同定」を扱います。
- ランダム一様戦略は敵対的(adversarial)報酬のもとでは最適な誤り率を達成しますが、確率的報酬では最適ではありません。
- 著者らは、報酬がどちらのモデルかを知らないまま、両設定で最適な誤り率を同時に達成する学習器を一般には構成できないことを示します。
- 敵対的報酬に対するロバスト性を制約として課したときに、確率的問題で達成可能な最良の誤り率を特徴づける下限を導出します。
- さらに、パラメータ不要の簡単なアルゴリズムを提案し、確率的問題では対数因子を除いて下限に一致する誤り確率を示しつつ、敵対的ケースにもロバストであることを示します。




