要旨:階層的指示追従(HIF)は、優先順位が付けられた命令のスタックで大規模言語モデルに指示を与える問題を指します。標準的な手法であるRLHFやDPOは通常、この問題に対してうまく機能しません。主に単一の目的の最適化を行うため、システムプロンプトの適合性を明示的に強制することができません。一方、監視付きファインチューニングは、フィルタリングされ適合したデータを模倣することに依存しますが、アルゴリズムレベルでの優先度の非対称性を確立することに失敗します。本稿では、\textsc{HIPO}、HIFを制約付きマルコフ決定過程として定式化する新規の整合フレームワークを紹介します。\textsc{HIPO}はシステムプロンプトを単なる入力コンテキストから厳格なアルゴリズム的境界へと高めます。プライマル-デュアル安全強化学習アプローチを用いて、アルゴリズムはシステムプロンプトの適合性を明示的な制約として動的に強制し、この実現可能領域内でのみユーザーの有用性を最大化します。さまざまなモデルアーキテクチャ(例:Qwen、Phi、Llama)を横断する広範な評価は、\textsc{HIPO}がシステムの適合性とユーザー有用性の両方を著しく向上させることを示しています。さらに、機構的分析により、この制約付き最適化が自動的にモデルの注意を長距離のシステムトークンへと向けるよう働き、複雑なワークフローにおける信頼性の高いLLM展開のための原理的な基盤を提供します。
返却形式: {"translated": "翻訳されたHTML"}