要旨: 近年のセマンティック・クエリ処理エンジンにより、セマンティック集約は原始的な演算子となり、LLMを用いて関係(relation)を自然言語の集約へと縮約することが可能になりました。しかし、その結果得られるセマンティック集約には、基となる関係に裏付けのない主張が含まれる可能性があります。このような主張の検証は難しいです。なぜなら、対象の主張には、量化子、グルーピング、比較などが含まれることが多く、それらはLLMのコンテキスト・ウィンドウを大幅に超える関係にまたがり、セマンティック処理と記号(シンボリック)処理を高コストで組み合わせる必要があるためです。
本論文では、主張検証を、最適化とプロヴナンス(出所情報)の取得を特化させたセマンティック・クエリ処理タスクとして作り直すシステムEvergreenを提示します。Evergreenは、各主張を宣言的なセマンティック検証クエリへコンパイルし、集約を生成したのと同じエンジン上でそれを実行します。コストとレイテンシを削減するために、Evergreenは、検証に配慮した最適化(早期終了、関連度によるソーティング、信頼区間列による推定)およびセマンティック・クエリ向けの汎用最適化(演算子融合、類似性フィルタリング、プロンプトキャッシュ)によって、不必要なLLM呼び出しを回避します。各判断(verdict)には、最小限のタプル集合が結果を正当化することを示す引用(citation)が付随し、そのセマンティクスは一階論理に対するセミリング・プロヴナンスに基づきます。
実運用に触発されたワークロードを反映する、実世界のレストラン口コミデータセットに関するベンチマークでは、Evergreenは強力なLLMにより優れた検証品質(F1 = 1.00)を達成し、最適化なしの検証と比べてコストを3.2倍、レイテンシを4.0倍削減します。さらに、はるかに弱いLLMであっても、Evergreenは、強力なLLMをジャッジとして用いるベースライン(LLM-as-a-judge)をF1で上回り、コストを48分の1、レイテンシを2.3分の1に抑えます。検索拡張型エージェント(retrieval-augmented agent)と比べると、両者が強力なLLMを用いる場合、Evergreenは同程度のコストでF1とレイテンシの点で良好に比較できます。しかし、はるかに弱いLLMを用いる場合でも、Evergreenは同じF1を63分の1のコストで、かつレイテンシを4.2分の1に抑えて達成します。
Evergreen:セマンティック集約に対する効率的なクレーム検証
arXiv cs.AI / 2026/4/30
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文では、LLMが生成するセマンティック集約に含まれる「根拠のない可能性のあるクレーム」を、元データに基づいて効率的に検証するシステムEvergreenを提案する。
- Evergreenは各クレームを宣言的なセマンティック検証クエリに変換し、集約を生成したのと同じセマンティッククエリエンジンで実行し、早期停止・関連度順のソート・信頼度系列による推定などの最適化でコストとレイテンシを削減する。
- 判定結果には、第一階述語論理に対するセミリング・プロベナンスに基づくプロベナンス捕捉によって、最小限のタプル集合により結果を正当化する引用(citation)を付与する。
- 実運用に近いワークロードを反映したレストランレビューのベンチマークで、Evergreenは強力なLLM使用時に検証品質が非常に高く(F1=1.00)、最適化なしの検証に比べコスト3.2倍、レイテンシ4.0倍の削減を達成する。
- 弱いLLMでも性能を維持し、LLM-as-a-judgeベースラインを上回り、リトリーバル拡張エージェントと比べても同等のF1を大幅に低コスト・低レイテンシで実現する。