HIPO: 制約付き強化学習による指示階層化

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

HIPOは、階層的指示追従を制約付きマルコフ決定過程として扱い、システムプロンプトを明示的なアルゴリズム的境界として強制する制約付き強化学習フレームワークを導入する。
本手法は、プライマル-デュアル法に基づく安全なRLアプローチを用いて、システムプロンプトによって定義された実現可能領域内に留まりつつユーザー効用を最大化し、RLHFおよびDPOにおける多目的整合性のギャップに対処する。
実験結果は、Qwen、Phi、Llamaなど多様なアーキテクチャにおいて、システム遵守とユーザー効用の向上を示し、モデル間での堅牢な適用性を示唆している。
機構分析は、制約付き最適化が自然に長距離のシステムトークンに注意を向けさせ、複雑なワークフローにおける信頼性の高いLLM展開を支援する。

要旨：階層的指示追従（HIF）は、優先順位が付けられた命令のスタックで大規模言語モデルに指示を与える問題を指します。標準的な手法であるRLHFやDPOは通常、この問題に対してうまく機能しません。主に単一の目的の最適化を行うため、システムプロンプトの適合性を明示的に強制することができません。一方、監視付きファインチューニングは、フィルタリングされ適合したデータを模倣することに依存しますが、アルゴリズムレベルでの優先度の非対称性を確立することに失敗します。本稿では、\textsc{HIPO}、HIFを制約付きマルコフ決定過程として定式化する新規の整合フレームワークを紹介します。\textsc{HIPO}はシステムプロンプトを単なる入力コンテキストから厳格なアルゴリズム的境界へと高めます。プライマル-デュアル安全強化学習アプローチを用いて、アルゴリズムはシステムプロンプトの適合性を明示的な制約として動的に強制し、この実現可能領域内でのみユーザーの有用性を最大化します。さまざまなモデルアーキテクチャ（例：Qwen、Phi、Llama）を横断する広範な評価は、\textsc{HIPO}がシステムの適合性とユーザー有用性の両方を著しく向上させることを示しています。さらに、機構的分析により、この制約付き最適化が自動的にモデルの注意を長距離のシステムトークンへと向けるよう働き、複雑なワークフローにおける信頼性の高いLLM展開のための原理的な基盤を提供します。

返却形式: {"translated": "翻訳されたHTML"}

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

HIPO: 制約付き強化学習による指示階層化

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも