LLM向け「Frictive Policy Optimization」:認識論的介入、リスク感度制御、反省的アラインメント
arXiv cs.LG / 2026/4/29
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Frictive Policy Optimization(FPO)という枠組みを提案し、LLMの方策が「何を言うか」だけでなく「いつ介入するか」を学習して、認識論的リスクや規範的リスクを時間を通じて管理することを目指します。
- 配分を受けた介入の意思決定を、即時の報酬だけでなく下流の認識論的な質への期待効果に基づいて行う「リスク感度の認識論的制御問題」として、アラインメントを再定式化しています。
- FPOは、明確化・検証・挑戦・軌道修正・拒否を明示的な「制御行動」として扱い、介入の分類(タクソノミー)と、複数のアラインメント失敗モードを捉える構造化されたフリクション(摩擦)関数を提示します。
- 手法としては、報酬シェーピング、嗜好のペアリング、グループ相対ランキング、リスク条件付きトラストリージョンなどからなる統一的なFPOファミリーを含みます。
- 評価面では、明確化行動、キャリブレーション、一貫性のない箇所の修復、拒否の比例性、情報効率を通じて認識論的能力を直接測る評価枠組みを提案しています。


