確率的バンディットの方策勾配に対する拡散分析

arXiv cs.AI / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、k腕の確率的バンディット問題に対する方策勾配の連続時間拡散近似を研究している。
学習率 $\\eta = O(\\Delta^2/\\log(n))$ のとき、後悔は $O(k \\log(k) \\log(n) / \\eta)$ になることを証明する。ここで $n$ はホライズン、$\\Delta$ は最小ギャップである。
対数的に少ない腕数しか持たないインスタンスを構築し、$\\eta$ = O($\\Delta^2$) でない限り後悔が線形になる。
結果は、拡散ベースの方策勾配法における探索と後悔のバランスを取る学習率の選択に指針を提供する。

要旨: 私たちは、 $k$ -腕の確率的バンディット問題に対する方策勾配の連続時間拡散近似を研究する。私たちは、学習率 $\\eta = O(\\Delta^2/\\log(n))$ のとき、後悔は $O(k \\log(k) \\log(n) / \\eta)$ になることを証明する。ここで $n$ はホライズン、 $\\Delta$ は最小ギャップである。さらに、腕数が対数的にしか多くないインスタンスを構築し、 $\\eta$ が $O(\\Delta^2)$ でない限り後悔は線形になることを示す。

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

Dev.to

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

Dev.to

確率的バンディットの方策勾配に対する拡散分析

要点

関連記事

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

Week 3: LLMでの構築を始める前に『退屈な』MLを学ぶ理由

三エージェント・プロトコルは移植可能だ。規律は移植不可能だ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer