確率的な意思決定集合と逆損失に対するオンライン組合せ最適化
arXiv cs.LG / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、現実の故障や制約によって構成要素が時々利用できなくなるような、不確実な「複合アクション」の確率的な利用可能性を扱う逐次学習を対象にしています。
- Follow-The-Perturbed-Leader(擾乱付きの先行者に従う)に基づくアルゴリズムを提案し、全情報、(半)バンディット、さらにその中間にあたる制限付き情報といった複数のフィードバック設定に合わせて解析します。
- 主要な貢献は「Counting Asleep Times(眠っている時間を数える)」と呼ばれる新しい損失推定手法で、アクションの利用可能性が変化するときの部分観測を扱うために設計されています。
- それぞれの設定に対して損失(後悔度)の上界(regret bounds)を与え、特に確率的なスリーピング・バンディット問題に対する効率的アルゴリズムの既知の保証を大きく改善することを示しています。
- 実験評価でも、提案手法が既存手法より優れていることが確認されます。



