複製可能なバンディット：UCBベースの探索

arXiv cs.LG / 2026/4/23

📰 ニュースModels & Research

共有:

要点

本論文は、確率的なマルチアーム・バンディットと線形バンディットに対する「複製可能（replicable）」なUCBベースのアルゴリズムを扱い、報酬の実現は独立でも内部乱数を共有した2回の実行で行動列が高確率で一致することを要求します。
確率的マルチアーム・バンディット向けにRepUCBを提案し、時間・アーム数・複製可能性パラメータρへの依存を含めた退却（regret）の上界を明示します。
確率的線形バンディットではRepRidge（複製可能なリッジ回帰推定量）を導入し、信頼区間保証とρ-複製可能性の両方を満たすことを示した上で、それを用いてRepLinUCBを設計します。
著者らはRepLinUCBが fO((d + d^3/ρ)√T)（tilde表記）に抑えられる退却境界を達成し、既存最良保証を約O(d/ρ)の因子で改善することで「複製可能性の代償（price of replicability）」を大きく下げられることを示します。

Abstract

本研究では、確率的マルチアームド・バンディット（MAB）およびUCB（Upper Confidence Bound）に基づく探索を行う線形バンディットに対する、再現可能（replicable）なアルゴリズムを考察する。バンディットアルゴリズムが、共有された内部乱数を用いた2つの実行において、報酬の実現が独立であるにもかかわらず、少なくとも

1- ho

の確率で同一の行動系列を生成する場合、そのアルゴリズムを

ho

-再現可能（

ho

-replicable）と呼ぶ。先行研究は主として除去（elimination）に基づくものであり、無限個の行動をもつ線形バンディットでは離散化に依存している。その結果、次元

d

と

ho

に関する依存が最適ではないものとなっている。本研究では、両設定に対する楽観的（optimistic）な代替手法を開発する。確率的マルチアームド・バンディットに対しては、再現可能なバッチUCBアルゴリズムであるRepUCBを提案し、次のことを示す：この手法は損失（regret）

O\!\left(\frac{K^2\log^2 T}{\rho^2}\sum_{a:\Delta_a>0}\left(\Delta_a+\frac{\log(KT\log T)}{\Delta_a}\right)\right)

を達成する。確率的線形バンディットに対しては、まず、信頼（confidence）の保証と

ho

-再現可能性の保証の両方を満たす、再現可能なリッジ回帰推定器RepRidgeを導入する。この推定器とその保証は、我々のバンディットアルゴリズムにおける役割にとどまらず、他の統計的推定の設定においても独立して関心を持たれうる。続いて、RepRidgeを用いて、確率的線形バンディット向けの再現可能な楽観的アルゴリズムRepLinUCBを設計し、その損失が

O\!\left(\big(d+\frac{d^3}{\rho}\big)\sqrt{T}\right)

で抑えられることを示す。これは、先行する最良の損失保証を

O(d/\rho)

の因子だけ改善し、我々の楽観的アルゴリズムが再現可能性に対する代償（price of replicability）を大幅に削減し得ることを示している。

ガバメントAI「源内」をオープンソースとして公開します

note

【ニュース】ChatGPTが「GPT-5.5」に！何が変わった？できるようになったことを解説(*'▽')

note

【検証】GPT-5.5 Thinkingが5.1（ほんのり4o）だった件【追記あり】

note

【悲報】もう従来の画像生成には戻れない。AI特有の「不自然さ」を完全払拭し、実写級の日本人美女を生成するBaiduの最強AI「ERNIE-Image」がヤバい【ComfyUIワークフロー配布】

note

なぜ自動音声認識（ASR）モデルはプロンプトを使わないのですか？

Reddit r/MachineLearning

複製可能なバンディット：UCBベースの探索

要点

Abstract

関連記事

ガバメントAI「源内」をオープンソースとして公開します

【ニュース】ChatGPTが「GPT-5.5」に！何が変わった？できるようになったことを解説(*'▽')

【検証】GPT-5.5 Thinkingが5.1（ほんのり4o）だった件【追記あり】

【悲報】もう従来の画像生成には戻れない。AI特有の「不自然さ」を完全払拭し、実写級の日本人美女を生成するBaiduの最強AI「ERNIE-Image」がヤバい【ComfyUIワークフロー配布】

なぜ自動音声認識（ASR）モデルはプロンプトを使わないのですか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer