PolicyBank:LLMエージェントのためのポリシー理解の進化

arXiv cs.AI / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMエージェントが組織の認可制約に従う際の課題として、自然言語で示された許可ルールには曖昧さや論理/意味のギャップが含まれがちで、それにより要件が一貫して誤って解釈される点を指摘しています。
  • 「PolicyBank」は、ツール単位の構造化されたポリシー洞察を保持し、相互作用と事前デプロイ検証での是正フィードバックを通じて解釈を反復的に磨き込むメモリ機構として提案されています。
  • 既存のメモリ手法は、ポリシー記述に欠陥がある場合に「準拠しているが誤り」という行動を強化してしまい得る、というのが著者の主張です。
  • 著者らは、ツール呼び出しベンチマークを拡張して制御されたポリシーギャップを導入し、アライメント失敗と実行失敗を切り分ける体系的なテストベッドも提供しています。
  • ポリシーギャップ評価では、既存のメモリ機構の成功率がほぼゼロである一方、PolicyBankは人間オラクルに向けたギャップを最大82%まで縮めたと報告されています。

Abstract

組織のポリシーの下で動作するLLMエージェントは、通常は自然言語で指定される認可制約に従う必要があります。しかし実際には、そのような仕様には必然的に曖昧さや、論理的または意味的な欠落が含まれ、その結果、エージェントの振る舞いが真の要件から系統的に逸脱してしまいます。問いはこうです。事前デプロイテストにおける相互作用と是正的フィードバックによって、エージェントが自らのポリシー理解を進化させることを許すならば、仕様の欠落を埋めるように解釈を自律的に洗練できるのでしょうか。私たちは、PolicyBankを提案します。PolicyBankは、構造化されたツール・レベルのポリシー洞察を保持し、それらを反復的に改良するメモリ機構です。これは、ポリシーを不変の確実な真実として扱い、「準拠しているが誤っている」振る舞いを強化してしまう既存のメモリ機構とは異なります。また、人気のツール呼び出しベンチマークを拡張し、位置づけを制御したポリシー・ギャップを導入することで、アラインメント失敗を実行失敗から切り分ける、体系的なテストベッドにも貢献します。既存のメモリ機構はポリシー・ギャップのシナリオでほぼゼロに近い成功を達成する一方で、PolicyBankは人間のオラクルに向けてギャップの最大82%までを埋めます。