コミットする前に検証せよ:自己監査によるLLMエージェントの忠実な推論へ
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMエージェントが首尾一貫しているように見える推論の軌跡を生成できる一方で、それが論理的制約や証拠制約に違反している場合があり、その推論が記憶に保存され、長い時間範囲にわたる意思決定ステップを通じて伝播し得ると主張する。
- 「忠実性(faithfulness)」の代理として合意メカニズムに依存することを批判し、途中の推論が実際に妥当であることを、単に意見が一致していることが必ずしも意味しないと指摘する。
- 著者らは、エージェントが行動をコミットする前に内部の信念状態を検証する手法SAVeR(Self-Audited Verified Reasoning)を提案し、推論の忠実性を改善する。
- SAVeRは、複数の多様な(ペルソナベースの)候補となる信念を生成し、その後に敵対的監査(adversarial auditing)を用いて制約違反の位置を特定し、さらに検証可能な受容基準を伴う制約ガイド付きの最小限の介入により修復する。
- 6つのベンチマークデータセットでの実験により、SAVeRは推論の忠実性を改善しつつ、エンドタスク性能も競争力を維持することが示される。



