LLM向け「Frictive Policy Optimization」:認識論的介入、リスク感度制御、反省的アラインメント

arXiv cs.LG / 2026/4/29

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Frictive Policy Optimization(FPO)という枠組みを提案し、LLMの方策が「何を言うか」だけでなく「いつ介入するか」を学習して、認識論的リスクや規範的リスクを時間を通じて管理することを目指します。
  • 配分を受けた介入の意思決定を、即時の報酬だけでなく下流の認識論的な質への期待効果に基づいて行う「リスク感度の認識論的制御問題」として、アラインメントを再定式化しています。
  • FPOは、明確化・検証・挑戦・軌道修正・拒否を明示的な「制御行動」として扱い、介入の分類(タクソノミー)と、複数のアラインメント失敗モードを捉える構造化されたフリクション(摩擦)関数を提示します。
  • 手法としては、報酬シェーピング、嗜好のペアリング、グループ相対ランキング、リスク条件付きトラストリージョンなどからなる統一的なFPOファミリーを含みます。
  • 評価面では、明確化行動、キャリブレーション、一貫性のない箇所の修復、拒否の比例性、情報効率を通じて認識論的能力を直接測る評価枠組みを提案しています。

Abstract

私たちは、言語モデルの方策を学習し、何を言うかだけでなく、いつ、どのように介入するかを制御して、認識論的リスクと規範的リスクを管理するための枠組みである Frictive Policy Optimization(FPO)を提案します。表層的な嗜好やタスク有用性を最適化するだけの従来のアライメント手法とは異なり、FPO は、明確化、検証、挑戦、軌道修正、拒否を、時系列で信念、コミットメント、不確実性の進化を形作ることを目的とする明示的な制御行動として扱います。私たちはアライメントを、介入の意思決定が、即時の報酬だけでなく、その介入が下流の認識の質に及ぼす期待効果に基づいて選択される、リスク感受的な認識論的制御問題として定式化します。さらに、フリクティブ(摩擦的)介入のコンパクトな分類法を導入し、複数のアライメント失敗モードを実装する構造化された摩擦汎関数を提示し、報酬シェーピング、嗜好ペアリング、集団相対ランキング、リスク条件付き信頼領域にまたがる FPO 手法の統一ファミリーを提案します。加えて、明確化の振る舞い、キャリブレーション、矛盾修復、拒否の比例性、情報効率を通じて認識論的能力を直接測定する評価枠組みも提案します。これらの結果は、とりわけ結果だけでなく認識論的な振る舞いにおいても整合したエージェントを学習するための、形式的かつアルゴリズム的な基盤を提供します。