オンライン文脈バンディットに対するカリブレーション・ゲート付きLLM疑似観測

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コンテキスト付きバンディットに対し、各ラウンド後にLLMが未選択アームの反実仮想報酬を予測し、それを疑似観測として加えることでコールドスタート時の損失(後悔)を減らす手法を提案している。
  • さらに、選択済みアームでの予測精度を指数移動平均で追跡し、その精度が悪い場合はLLMの影響を抑える「カリブレーション・ゲート付き減衰スケジュール」を用いる。
  • 実験では、UCI MushroomとMIND-smallの2つの環境で、タスク特化プロンプトを用いた場合にMINDで累積後悔をLinUCB単体より19%削減できることを示している。
  • 一方で、汎用的な反実仮想プロンプトの枠組みは両環境で後悔を増やし得るため、プロンプト設計が減衰スケジュールやカリブレーション・ゲーティングのパラメータ選定よりも支配的であると結論づけている。
  • カリブレーション・ゲートの失敗モードを分析し、疑似観測の重み付けを決めるバイアス–分散トレードオフに関する理論的動機も提示している。