スタートダッシュか、偽スタートか？LLM初期化バンディットの理論的・実証的評価

arXiv cs.AI / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ウォームスタートのために用いる合成嗜好データがランダムノイズまたはラベル反転ノイズによって破損した場合に、LLMで初期化した文脈付きバンディット（CBLI）がどのように振る舞うかを評価する。
アラインされた領域では、ウォームスタートの有効性は概ね30%までの破損で維持され、40%前後で優位性を失い、50%を超えると劣化する。
系統的にミスアラインされた領域では、追加ノイズがなくても、LLM生成の事前分布（prior）がコールドスタートのバンディットと比べて後悔（regret）を増加させ得ることが示される。
著者らは、ランダムなラベルノイズと系統的ミスアラインメントによる後悔の変化を分解する理論的枠組みを提示し、LLMのウォームスタートがコールドスタートよりも確実に（証明可能に）優れるための十分条件を導出する。
複数のコンジョイント（conjoint）データセットと複数のLLMにわたる実験により、推定されたアラインメントの信号が、ウォームスタートが推薦品質を改善するのか悪化させるのかを予測できることが示される。

Abstract

最近の大規模言語モデル（LLM）の進歩は、ユーザ嗜好データを生成してバンディットをウォームスタートする新たな機会を提供しています。LLMの初期化を用いた文脈バンディット（CBLI）に関する最近の研究では、これらの合成事前分布が初期の後悔（early regret）を大幅に低減できることが示されています。しかし、これらの知見は、LLMが生成した選択が実際のユーザ嗜好と合理的に一致していることを前提としています。本論文では、合成トレーニングデータにランダムノイズおよびラベル反転ノイズを注入したときに、LLM生成の嗜好がどのように振る舞うかを体系的に検討します。整合している領域（aligned domains）では、ウォームスタートは30%までの破損（corruption）に対して有効なまま維持され、40%あたりでその優位性を失い、50%を超えると性能が低下します。一方で、体系的な不整合がある場合は、ノイズを追加しなくても、LLM生成の事前分布によってコールドスタートのバンディットよりも高い後悔が生じ得ます。これらの振る舞いを説明するために、ランダムなラベルノイズと体系的な不整合がバンディットの後悔を駆動する「事前誤差（prior error）」に与える影響を分解する理論的分析を開発し、LLMに基づくウォームスタートがコールドスタートのバンディットよりも確実に（provably）優れていることが保証される十分条件を導出します。これらの結果を、複数のコンジョイント（conjoint）データセットおよび複数のLLMにわたって検証し、推定された整合性（alignment）が、ウォームスタートが推奨品質を改善するのか劣化させるのかを確実に追跡することを示します。