ランキングフィードバックを用いたオンライン学習と均衡計算

arXiv cs.CL / 2026/3/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、提案されたアクションのランキングのみを観測する敵対的環境におけるオンライン学習を研究し、この設定をゲーム理論における均衡計算と結びつける。
即時効用により導かれるランキングと、時間平均効用により導かれるランキングの2つのランキング機構を、完全情報とバンディット情報の両方の設定で分析する。
即時効用ランキングフィードバックでは、一般にはサブリニアルな外部レグレットが不可能であることを証明し、Plackett-Luceのような温度が十分小さい決定論的な時間平均ランキングの下でもサブリニアルレグレットが不可能となり得ることを示す。
効用列の総変動がサブリニアルであるという仮定の下でサブリニアルなレグレットを達成する新しいアルゴリズムを開発し、完全情報の時間平均効用ランキングフィードバックについてはこの追加の仮定を除去できることを示す。
したがって、すべてのプレイヤーがこれらのアルゴリズムに従って反復的にプレイすれば、結果として近似的な粗相関均衡を生み出し、オンラインの大規模言語モデルのルーティングタスクにおいて有効性が示されている。

要約: 任意で、さらには敵対的な環境におけるオンライン学習は、逐次意思決定論の分野で広く研究されており、ゲーム理論における均衡計算と密接に関連している。ほとんどの既存のオンライン学習アルゴリズムは環境からの \emph{数値} ユーティリティフィードバックに依存しており、これは人間を介したループ型のアプリケーションでは利用できない場合があるか、プライバシー上の懸念により制限されることがある。本論文では、学習者が各タイムステップで提案された行動の集合に対する \emph{ランキング} のみを観察するオンライン学習モデルを研究する。私たちは、2つのランキング機構を検討する：現在のタイムステップでの \emph{瞬時} ユーティリティにより誘導されるランキングと、現在のタイムステップまでの \emph{時間平均} ユーティリティにより誘導されるランキング、\emph{全情報} および \emph{バンディット} フィードバック設定の下で。標準的な外部レグレット指標を用いると、一般には \emph{瞬時} ユーティリティ \emph{ランキング} フィードバックではサブ線形の後悔は不可能であることを示す。さらに、ランキングモデルが比較的決定論的である場合、すなわち十分に小さな温度を持つ \emph{Plackett-Luce} モデルの下では、\emph{時間平均} ユーティリティ \emph{ランキング} フィードバックでもサブ線形の後悔は不可能である。その後、ユーティリティ列の総変動がサブ線形であるという追加仮定の下でサブ線形の後悔を達成する新しいアルゴリズムを開発する。特筆すべきは、全情報の \emph{時間平均} ユーティリティランキングフィードバックの場合、この追加仮定を除去できることである。結果として、正規形ゲームの全てのプレイヤーが私たちのアルゴリズムに従うと、反復プレイは近似的な粗相関均衡を生み出す。また、オンライン大規模言語モデルのルーティングタスクにおける私たちのアルゴリズムの有効性を示す。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

ランキングフィードバックを用いたオンライン学習と均衡計算

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも