PolicyBank:LLMエージェントのためのポリシー理解の進化
arXiv cs.AI / 2026/4/20
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMエージェントが組織の認可制約に従う際の課題として、自然言語で示された許可ルールには曖昧さや論理/意味のギャップが含まれがちで、それにより要件が一貫して誤って解釈される点を指摘しています。
- 「PolicyBank」は、ツール単位の構造化されたポリシー洞察を保持し、相互作用と事前デプロイ検証での是正フィードバックを通じて解釈を反復的に磨き込むメモリ機構として提案されています。
- 既存のメモリ手法は、ポリシー記述に欠陥がある場合に「準拠しているが誤り」という行動を強化してしまい得る、というのが著者の主張です。
- 著者らは、ツール呼び出しベンチマークを拡張して制御されたポリシーギャップを導入し、アライメント失敗と実行失敗を切り分ける体系的なテストベッドも提供しています。
- ポリシーギャップ評価では、既存のメモリ機構の成功率がほぼゼロである一方、PolicyBankは人間オラクルに向けたギャップを最大82%まで縮めたと報告されています。



