要旨: ツール呼び出しを介してタスクを実行するAIエージェントは、結果を幻覚することが多い――ツール実行をでっちあげ、出力件数を誤って伝えたり、推論を事実として提示したりします。最近の検証可能なAI推論へのアプローチはゼロ知識証明に依存しており、暗号的保証は提供しますが、クエリごとに数分の証明時間を課すため、対話型エージェントには現実的ではありません。我々はNabaOSを提案します。インドの認識論(Nyaya Shastra)に触発された軽量な検証フレームワークで、LLM応答のあらゆる主張をその認識源(pramana)に基づいて分類します:直接のツール出力(pratyaksha)、推論(anumana)、外部証言(shabda)、欠如(abhava)、または根拠のない意見。私たちの実行時には、LLMが偽造できないHMAC署名付きツール実行レシートを生成し、次にこれらのレシートに対して主張を照合して、リアルタイムで幻覚を検出します。我々は NyayaVerifyBench という新しいベンチマークで評価します。これは、4言語にまたがる1,800のエージェント応答シナリオで、6種類の幻覚を挿入したものです。NabaOSは、でっち上げられたツール参照の94.2%、出力数の誤表現の87.6%、偽の欠如主張の91.3%を検出し、応答あたりの検証オーバーヘッドは15ms未満です。深い委任(エージェントが多段階のウェブタスクを実行する場合)では、独立した再取得を介してURLの改ざんの78.4%を検出するクロスチェックプロトコルを備えています。我々は5つのアプローチと比較します: zkLLM(暗号的証明、クエリあたり180秒)、 TOPLOC(局所性感知ハッシュ)、 SPEX(実行のサンプリングベースの証明)、 テンソルコミットメント、 自己一貫性検証。NabaOSは対話型エージェントに対して、コスト・レイテンシ・カバレッジのトレードオフで最高を達成します: 15ms未満で94.2%のカバレッジに対し、zkLLMは180,000msでほぼ完璧なカバレッジを提供します。対話型エージェントにとって、実用的なレシートベースの検証は暗号証明よりも費用対効果が高く、認識源の分類は二値判断よりもユーザーにとって行動可能な信頼信号を提供します。
ツール実行レシートではなくゼロ知識証明: AIエージェントの実用的幻覚検出
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- NabaOSは、LLMの応答におけるすべての主張を、その認識源(pramana)に基づいて分類する軽量検証フレームワークを導入します。これには、直接のツール出力(pratyaksha)、推論(anumana)、外部証言(shabda)、欠如(abhava)、および根拠のない意見が含まれます。
