要旨: 実世界の計算予算の下で、教師ありファインチューニングと強化学習を組み合わせたLLMポストトレーニングのパイプラインは、現実的な計算予算の下で設定を構成するのが難しい。設定空間は高次元かつ異質で、段階は強く結合しており、エンドツーエンドの評価は高コストである。私たちは、LLMポストトレーニングにおける設定選択のための、予算を意識した2段階フレームワーク「AutoPipe」を提案します。オフラインでは、AutoPipeは過去の実行からデータセット条件付きのランキング学習代替モデルを学習し、データセット内の嗜好を捉え、設定空間の有望な領域へ向かう移行可能な指針を提供します。オンラインでは、新しいデータセットに対して、オフラインの指針を活用してベイズ最適化を誘導し、データセット固有の偏差をガウス過程残差代替モデルでモデリングします。評価コストを削減するために、各試行は早期停止され、初期の学習信号を最終的なポストトレーニング性能の低コスト代理指標へマッピングする学習済み予測子によってスコア付けされます。生物医学的推論タスクを対象とした実験は、AutoPipeがオフラインのみのベースラインを一貫して上回り、最強のオンラインハイパーパラメータ最適化(HPO)ベースラインと同等の性能を、これらの計算コストの10%未満で達成することを示しています。
LLMのポストトレーニング・パイプラインの自動構成
arXiv cs.LG / 2026/3/20
💬 オピニオンTools & Practical UsageModels & Research
要点
- 本論文は、現実的な計算予算の下で、LLMのポストトレーニング・パイプライン(教師ありファインチューニングと強化学習)を構成する、予算を考慮した二段階フレームワークAutoPipeを提案する。
- オフラインのデータセット条件付きのランキング学習代理モデルとオンラインのベイズ最適化を組み合わせ、ガウス過程の残差を用いて各データセットに合わせた指針を調整する。
- 評価コストを削減するため、各試行を早期停止とし、初期のトレーニング信号を最終的なポストトレーニング性能の低コスト代理指標へ写像する学習済み予測器でスコアを付ける。
- 生物医学的推論タスクを対象とした実験では、AutoPipeはオフラインのみのベースラインを上回り、最も強力なオンラインHPOベースラインと同等の性能を達成しつつ、それらの計算コストの約10%未満で済むことを示した。




