Erdős–Rényi型サイド観測グラフによるオンライン学習

arXiv stat.ML / 2026/4/29

📰 ニュースModels & Research

共有:

要点

本論文は、サイド観測グラフにより非選択の腕の損失を観測できる状況を扱う、敵対的なマルチアーム・バンディット学習を研究しています。
非選択の各腕は、学習者の行動に依存せず独立に、一定の未知確率 r で損失を開示すると仮定し、r の異なる範囲に対応する2つのアルゴリズムを提案します。
r ≥ (log T)/(2N) の場合、最初のアルゴリズムは N 本の腕を持つ T ラウンド後に期待レグレット O(√((T/r) log N)) を達成します。
r が小さいときは、2つ目のアルゴリズムにより期待レグレット O(√((T/r) log (N+T))) が得られ、さらに r の適用範囲を判定する推定手順も示されています。
与えられたレグレット上界は、事前に r を知ることが許された任意のアルゴリズムの最良性能に対して、対数因子の範囲で近いことが示されています。

Abstract

本稿では、学習者が実際に選択したアーム以外の複数のアームの損失も観測できる、敵対的なマルチアームバンディット問題を考えます。各非選択アームは、互いに独立かつ学習者の行動やそれ以外の要因に依存せず、固定ではあるが未知の確率

r

でその損失を明らかにするとします。異なる

r

の範囲に対して機能する2つのアルゴリズムを提案します。バンディット問題で

N

個のアームを

T

ラウンド行った後、最初のアルゴリズムの期待後悔（regret）は、

r\ge( \log T)/(2N)

のとき

O(\sqrt{(T /r) \log N })

で抑えられることを示します。一方で2つ目のアルゴリズムは、より小さい

r

に対して

O(\sqrt{(T/r) \log (N+T)})

の後悔を達成します。また、~

r

の範囲を決定するための迅速な推定手順も提示します。これらの上界はいずれも、たとえアルゴリズムが~

r

を知っていることが許されていても達成可能な最良の性能の、対数因子の範囲内に収まっています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

2026年に実運用で効くAIボイスエージェント：実際に何がうまくいくのか

Dev.to

Erdős–Rényi型サイド観測グラフによるオンライン学習

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

2026年に実運用で効くAIボイスエージェント：実際に何がうまくいくのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

2026年に実運用で効くAIボイスエージェント：実際に何がうまくいくのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力