両世界の長所を両立させるマルチ・デュエル・バンディット: コンドルセとボルダの目的の下で、確率的および敵対的嗜好に対する統一アルゴリズム

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コンドルセおよびボルダの両方の目的の下で、マルチデュエル・バンディットに対する初の“両世界の長所を両立させる”アルゴリズムを提示する。環境モードを事前に知らることなく、確率的環境と敵対的環境の双方で最適に機能する。
Condorcet の場合、ブラックボックスリダクションである MetaDueling を導入し、任意のデュエル・バンディットアルゴリズムをマルチデュエル・バンディットアルゴリズムへ変換する——複数の勝者フィードバックを偏りのないペアワイズ信号へ変換する。
MetaDueling の適用として Versatile-DB を用いると、Condorcet マルチデュエルの初の両世界長所アルゴリズムが得られ、敵対的後悔は O(√(KT))、インスタンス最適な確率的後悔は O(∑_{i ≠ a*} log T / Δ_i) となる。
ボルダ設定では AlgBorda を提案し、確率的後悔は O(K^2 log KT + K log^2 T + ∑_{i: Δ_i^B > 0} (K log KT)/(Δ_i^B)^2)、敵対的後悔は O(K √(T log KT) + K^{1/3} T^{2/3} (log K)^{1/3}) を regime を事前に知らずに達成する。
本研究は Condorcet に対する一致する下界を、ボルダにはほぼ最適な上界を提供し、文献上の既知結果と一致するか、あるいは改善する。

要約：マルチデュエリング・バンディットは、学習者が各ラウンドで $m \geq 2$ 本のアームを選択し、勝者のみを観察するもので、順位付けや推奨システムを含む多くの応用に自然に現れます。しかし、根本的な問題は未解決のままでした。1つのアルゴリズムが、どのレジームに直面しているかを事前に知らずに、確率的環境と敵対的環境の両方で最適に機能できるのか？これに対して肯定的な回答を示し、CondorcetおよびBordaの両方の目的の下でマルチデュエリング・バンディットに対する初の best-of-both-worlds アルゴリズムを提供します。Condorcet設定では、\texttt{MetaDueling} を提案します。これは任意のデュエリング・バンディット・アルゴリズムをマルチデュエリング・バンディット・アルゴリズムに変換するブラックボックス還元で、多方向の勝者フィードバックを不偏なペアワイズ信号に変換します。これを \texttt{Versatile-DB} で具体化すると、マルチデュエリング・バンディットに対する初の best-of-both-worlds アルゴリズムが得られます：敵対的嗜好に対しては $O(\sqrt{KT})$ 擬似後悔を、確率的嗜好に対してはインスタンス最適な $O\!\left(\sum_{i eq a^\star} \dfrac{\log T}{\Delta_i}\right)$ 擬似後悔を、両方を同時に達成し、レジームを事前に知ることなく実現します。Borda設定では、\AlgBorda を提案します。これは確率的かつ敵対的なアルゴリズムで、確率的環境における後悔として $O\left(K^2 \log KT + K \log^2 T + \sum_{i: \Delta_i^{\mathrm{B}} > 0} \dfrac{K\log KT}{(\Delta_i^{\mathrm{B}})^2}\right)$ を達成し、敵対者に対しては $O\left(K \sqrt{T \log KT} + K^{1/3} T^{2/3} (\log K)^{1/3}\right)$ 後悔を達成します。これもレジームの事前知識なしに。Condorcet設定に対する上界と一致する下界で上界を補完します。Borda設定では、上界は下界に対してほぼ最適で（ $K$ の要因の範囲内）、文献における既知の最良の結果と一致します。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

両世界の長所を両立させるマルチ・デュエル・バンディット: コンドルセとボルダの目的の下で、確率的および敵対的嗜好に対する統一アルゴリズム

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer