休止型と非休止型の腐朽（ロッティング）バンディットを単一アルゴリズムで扱う

arXiv stat.ML / 2026/4/24

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、行動の報酬が時間とともに減衰する多腕バンディット問題を、｢休止型（rested rotting）｣と｢非休止型（restless rotting）｣の両方として扱います。
先行研究では休止型の腐朽バンディットに対して非休止型向けの最先端手法がうまく機能しないことが示されていた中で、本論文は両者に近い最適性能を達成する新アルゴリズムRAW-UCBを提案します。
RAW-UCBは、報酬の非定常性（区分的定数や有界変動など）や設定が休止型か非休止型かについての事前知識なしで、低い後悔（regret）を実現します。
合成データおよびデータセットに基づく実験で、理論的な知見が確認されたと報告しています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA