LLMポリシー最適化のための適応型シミュレーション実験

arXiv cs.LG / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、大規模言語モデル(LLM)を確率的なシミュレータとして扱い、有限の候補集合から選択される応答品質/ユーザー体験ポリシーを最適化することを提案する。
  • ペアワイズ比較に基づく適応型シミュレーション実験の枠組みを導入し、2種類のポリシースペースを検討する:非構造(ノンパラメトリック)な空間と、嗜好モデルから生成される構造化空間である。
  • 著者らは、両設定における最適ポリシーの高確率な同定に必要となる基礎的なデータ要件を導出する。特に非構造の場合については、閉形式の最適サンプリング比率も示す。
  • 構造化設定では、最適なサンプリング比率を計算するための正則化付き凸最適化の定式化を提示する。
  • 提案手法である適応型手順「LLM-PO」には理論的保証が付随し、数値結果により、ベンチマーク手法よりも優れており、LLMの性能を向上させることが示される。