スパース報酬への応用を伴う、半バンディットのための共分散適応アルゴリズム

arXiv stat.ML / 2026/4/16

💬 オピニオンModels & Research

共有:

要点

本論文は、標準的なバンディットとは異なり、同時アウトカム分布が問題の複雑さを決定する確率的な組合せ半バンディットを研究する。

要旨: 私たちは、確率的な組合せセミバンディットを調査します。この分野では、結果の全ての同時分布が問題インスタンスの複雑性に影響します（標準的なバンディットとは異なります）。典型的に考えられる分布は、特定のパラメータ値に依存しており、理論上は事前知識が必要とされるものの、実際には推定がかなり難しいです。例として、一般に仮定されるサブガウス族があります。私たちはこの問題を、代わりにサブ指数分布の新しい一般族を考えることで緩和します。この族には有界な分布やガウス分布が含まれます。この族に対して、未知の結果の共分散行列によってパラメータ化された期待レグレットに関する新しい下界を証明します。これは、サブガウス行列よりもより厳密な量です。次に、この共分散の推定値を用いるアルゴリズムを構成し、レグレットに関するタイトな漸近解析を示します。最後に、私たちの結果を、応用先が多くのレコメンダシステムにある疎な結果の族へ適用し、さらに拡張します。

GRPOで3台のMac Mini上にて長さ制約付きのReddit投稿要約タスクでQwen2.5-0.5B-Instructを学習—評価アップデート

Reddit r/LocalLLaMA

「Vibe Coding」は冗談から職種名へ——わずかの時間で現実の仕事に

Dev.to

流出したコード51.2万行が露出：Anthropicの秘密モデルが発覚

Dev.to

Claude Codeのセキュリティデフォルト：求めないときに何が同梱されるのか

Dev.to

UCSDとTogether AIの研究が、Transformerの2倍のサイズに匹敵する品質を実現するループ型言語モデルのための安定したアーキテクチャ「Parcae」を導入

MarkTechPost

スパース報酬への応用を伴う、半バンディットのための共分散適応アルゴリズム

要点

関連記事

GRPOで3台のMac Mini上にて長さ制約付きのReddit投稿要約タスクでQwen2.5-0.5B-Instructを学習—評価アップデート

「Vibe Coding」は冗談から職種名へ——わずかの時間で現実の仕事に

流出したコード51.2万行が露出：Anthropicの秘密モデルが発覚

Claude Codeのセキュリティデフォルト：求めないときに何が同梱されるのか

UCSDとTogether AIの研究が、Transformerの2倍のサイズに匹敵する品質を実現するループ型言語モデルのための安定したアーキテクチャ「Parcae」を導入

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer