階層的アラインメント:論理的整合性によってLLMに階層的な指示追従を強制する

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 複数の権限レベルを持つ指示(システム、ユーザー、ツール出力、検索文脈など)が同時に与えられる際の“良性の”指示競合に焦点を当て、階層的な優先順位を尊重するLLM指示追従を扱う研究です。
  • Neuro-Symbolic Hierarchical Alignment(NSHA)として、推論時に指示解決を制約充足問題(constraint satisfaction)として定式化し、階層制約のもとで整合性が最大となる指示集合を導く方針を提案しています。
  • 学習時は、推論段階のソルバーによる判断をモデルパラメータに蒸留することで、自動生成した教師データを用いて階層的整合の振る舞いを身につけさせます。
  • ルール追従、タスク実行、ツール利用、安全性などの複数ベンチマークで、単発・複数ターンの両方において競合下の性能を改善しつつ、参照設定では有用性を維持できることを示しています。

概要: 大規模言語モデルは、システムポリシー、ユーザ要求、ツール出力、取得した文脈など、権威レベルの異なる異種の情報源からの複数の命令のもとで動作することがますます増えています。命令階層に関する先行研究は、命令の優先順位を尊重することの重要性を強調していますが、主に対立(アドバーサリアル)攻撃に焦点が当てられており、現実のアプリケーションで生じる良性だが一般的な命令の競合を見落としています。このような状況では、モデルは単にセキュリティ違反を回避するだけでなく、命令が部分的または暗黙的に衝突する場合でも、タスクの有用性と振る舞いの一貫性を維持しなければなりません。本研究では、命令の優先順位を明示的にモデル化し、強制することで、階層的な命令追従を行うニューラル・シンボリック階層アラインメント(NSHA)を提案します。推論時には、命令解決を制約充足問題として定式化するソルバ主導の推論を導入し、階層的な制約のもとで適用可能な命令のうち、最大限整合的な集合をモデルが導出できるようにします。学習時には、NSHAは自動構築された教師データを用いて、ソルバに基づく判断をモデルのパラメータへ蒸留します。提案手法を、ルール追従、タスク実行、ツール利用、安全性に対して評価し、単一ターンおよび複数ターンの相互作用の両方を扱うとともに、NSHAがこの種の競合下で性能を大幅に改善し、参照設定において競争力のある有用性を維持することを示します。