コミットする前に検証せよ:自己監査によるLLMエージェントの忠実な推論へ

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMエージェントが首尾一貫しているように見える推論の軌跡を生成できる一方で、それが論理的制約や証拠制約に違反している場合があり、その推論が記憶に保存され、長い時間範囲にわたる意思決定ステップを通じて伝播し得ると主張する。
  • 「忠実性(faithfulness)」の代理として合意メカニズムに依存することを批判し、途中の推論が実際に妥当であることを、単に意見が一致していることが必ずしも意味しないと指摘する。
  • 著者らは、エージェントが行動をコミットする前に内部の信念状態を検証する手法SAVeR(Self-Audited Verified Reasoning)を提案し、推論の忠実性を改善する。
  • SAVeRは、複数の多様な(ペルソナベースの)候補となる信念を生成し、その後に敵対的監査(adversarial auditing)を用いて制約違反の位置を特定し、さらに検証可能な受容基準を伴う制約ガイド付きの最小限の介入により修復する。
  • 6つのベンチマークデータセットでの実験により、SAVeRは推論の忠実性を改善しつつ、エンドタスク性能も競争力を維持することが示される。

Abstract

大規模言語モデル(LLM)エージェントにおいて、推論軌跡は行動を導き、記憶を更新するための信頼できる内部信念として扱われます。しかし、首尾一貫した推論であっても、論理的制約や証拠に関する制約を破ってしまうことがあります。その結果、裏付けのない信念が繰り返し保存され、意思決定ステップをまたいで伝播されて、長い時間範囲を扱うエージェント的システムにおいて体系的な行動のドリフトが生じ得ます。既存の多くの戦略はコンセンサス(合意)メカニズムに依存しており、合意を忠実性(faithfulness)と取り違えています。本論文では、忠実でない中間推論軌跡が抱える脆弱性に着想を得て、 \textbf{S}elf-\textbf{A}udited \textbf{V}erified \textbf{R}easoning(\textsc{SAVeR})という新しい枠組みを提案します。この枠組みは、行動をコミットする前に、エージェント内部の信念状態に対して検証を強制し、忠実な推論を実現します。具体的には、忠実性に関係する構造空間の下で選択のため、パーソナに基づく多様な候補信念を構造的に生成します。推論の忠実性を達成するために、違反を局所化するための敵対的な監査(adversarial auditing)を行い、検証可能な受理基準の下で、制約に導かれた最小限の介入によって修復します。6つのベンチマークデータセットに対する大規模な実験により、本アプローチは、競争力のあるエンドタスク性能を維持しつつ、推論の忠実性を一貫して向上させることを示します。