AutoVerifier: 大規模言語モデルを用いたエージェント型自動検証フレームワーク

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

AutoVerifierは、急速に拡大する科学文献における複雑な技術的主張のエンドツーエンド検証を自動化するための、LLMベースのエージェント型フレームワークである。
各主張を構造化された（主語、述語、目的語）トリプルに分解し、知識グラフを構築し、コーパスの取り込みから最終的な仮説マトリクスの生成までを含む、6つの段階的に豊かなレイヤーを通じて検証を実行する。
このシステムは、表面的な正しさと、より深い方法論的妥当性との間にあるギャップを埋めることを目的としており、文書内チェック、異なる出典間での整合性チェック、外部シグナルによる裏付けを組み合わせる。
争点となっている量子コンピューティングの主張に関するデモでは、量子分野の専門知識を持たないアナリストがAutoVerifierを用いて、誇大な主張、指標の不整合、出典間の矛盾、さらに開示されていない可能性のある商業的な利益相反を検出した。
著者らは、このような構造化されたLLMによる検証アプローチによって、未成熟な技術に関する生の技術文書を、追跡可能で証拠に裏付けられたインテリジェンス評価へと変換できると主張している。

Abstract

科学・技術インテリジェンス（S&TI）の分析では、急速に拡大する文献の中で複雑な技術主張を検証する必要がありますが、既存のアプローチでは表面的な正確さと、より深い方法論的妥当性の間にある検証ギャップを埋めることができません。私たちは、ドメインの専門知識を必要とせずに技術主張のエンドツーエンド検証を自動化する、LLMベースのエージェント型フレームワークであるAutoVerifierを提示します。AutoVerifierは、あらゆる技術的主張を（Subject, Predicate, Object）の形式の構造化されたクレーム・トリプルへ分解し、知識グラフを構築することで、6つの段階的に豊かになるレイヤーにわたる構造化された推論を可能にします。具体的には、コーパス構築と取り込み、エンティティとクレームの抽出、文書内検証、クロスソース検証、外部シグナルによる裏付け、そして最終的な仮説マトリクスの生成です。私たちは、争点となっている量子コンピューティングの主張を対象にAutoVerifierを実証します。ここでは、量子の専門知識を持たないアナリストが運用したフレームワークが、対象論文内で過剰主張（overclaims）や指標の不整合を自動的に特定し、ソース間の矛盾を追跡し、開示されていない商業的な利益相反を明らかにし、最終的な評価を作成しました。これらの結果は、構造化されたLLM検証が、新興技術の妥当性と成熟度を信頼性高く評価できることを示しており、生の技術文書を、追跡可能で裏付けのあるインテリジェンス評価へと変換します。