AI Navigate

HIPO: 制約付き強化学習による指示階層化

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • HIPOは、階層的指示追従を制約付きマルコフ決定過程として扱い、システムプロンプトを明示的なアルゴリズム的境界として強制する制約付き強化学習フレームワークを導入する。
  • 本手法は、プライマル-デュアル法に基づく安全なRLアプローチを用いて、システムプロンプトによって定義された実現可能領域内に留まりつつユーザー効用を最大化し、RLHFおよびDPOにおける多目的整合性のギャップに対処する。
  • 実験結果は、Qwen、Phi、Llamaなど多様なアーキテクチャにおいて、システム遵守とユーザー効用の向上を示し、モデル間での堅牢な適用性を示唆している。
  • 機構分析は、制約付き最適化が自然に長距離のシステムトークンに注意を向けさせ、複雑なワークフローにおける信頼性の高いLLM展開を支援する。

要旨:階層的指示追従(HIF)は、優先順位が付けられた命令のスタックで大規模言語モデルに指示を与える問題を指します。標準的な手法であるRLHFやDPOは通常、この問題に対してうまく機能しません。主に単一の目的の最適化を行うため、システムプロンプトの適合性を明示的に強制することができません。一方、監視付きファインチューニングは、フィルタリングされ適合したデータを模倣することに依存しますが、アルゴリズムレベルでの優先度の非対称性を確立することに失敗します。本稿では、\textsc{HIPO}、HIFを制約付きマルコフ決定過程として定式化する新規の整合フレームワークを紹介します。\textsc{HIPO}はシステムプロンプトを単なる入力コンテキストから厳格なアルゴリズム的境界へと高めます。プライマル-デュアル安全強化学習アプローチを用いて、アルゴリズムはシステムプロンプトの適合性を明示的な制約として動的に強制し、この実現可能領域内でのみユーザーの有用性を最大化します。さまざまなモデルアーキテクチャ(例:Qwen、Phi、Llama)を横断する広範な評価は、\textsc{HIPO}がシステムの適合性とユーザー有用性の両方を著しく向上させることを示しています。さらに、機構的分析により、この制約付き最適化が自動的にモデルの注意を長距離のシステムトークンへと向けるよう働き、複雑なワークフローにおける信頼性の高いLLM展開のための原理的な基盤を提供します。

返却形式: {"translated": "翻訳されたHTML"}