スタートダッシュか、偽スタートか?LLM初期化バンディットの理論的・実証的評価
arXiv cs.AI / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ウォームスタートのために用いる合成嗜好データがランダムノイズまたはラベル反転ノイズによって破損した場合に、LLMで初期化した文脈付きバンディット(CBLI)がどのように振る舞うかを評価する。
- アラインされた領域では、ウォームスタートの有効性は概ね30%までの破損で維持され、40%前後で優位性を失い、50%を超えると劣化する。
- 系統的にミスアラインされた領域では、追加ノイズがなくても、LLM生成の事前分布(prior)がコールドスタートのバンディットと比べて後悔(regret)を増加させ得ることが示される。
- 著者らは、ランダムなラベルノイズと系統的ミスアラインメントによる後悔の変化を分解する理論的枠組みを提示し、LLMのウォームスタートがコールドスタートよりも確実に(証明可能に)優れるための十分条件を導出する。
- 複数のコンジョイント(conjoint)データセットと複数のLLMにわたる実験により、推定されたアラインメントの信号が、ウォームスタートが推薦品質を改善するのか悪化させるのかを予測できることが示される。



