複数クエリLLM推論におけるクロスクエリの矛盾を定量化する

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、関連する複数のクエリに対してLLMが相互に矛盾する回答を出しがちな理由を、グローバルに充足可能な信念状態を維持する問題として扱います。
390件のマルチクエリ推論インスタンスからなる新しいベンチマークを提示し、各ケースを含意・矛盾・不明のラベルで分類した上で、Case Satisfiability Rate（事例充足率）やContradiction Density（矛盾密度）、Revision Cost（修正コスト）といった集合レベルの評価指標を提案します。
確約（コミットメント）を抽出し、全体の充足可能性を検証したうえで、反例に基づく修復（counterexample-guided repair）で不整合を直す、ソルバー併用アプローチを提案します。
4つの推論ドメインでの実験により、提案手法がクロスクエリの矛盾を大幅に低減（SetCons: 0.56→0.94）しつつ、クエリごとの精度を維持できることが示され、グローバルな整合性の重要性が明確になります。

要旨: 大規模言語モデルは、複数の関連する問いを推論する際に、相互に矛盾した回答を頻繁に生成します。本研究では、ケースファイルの論理的一貫性、すなわち相互依存する問いにまたがって、グローバルに充足可能な信念状態を維持することを扱います。含意/矛盾/不明のラベルを備えた、390件のマルチクエリ推論インスタンスからなるベンチマークを導入し、Case Satisfiability Rate、Contradiction Density、Revision Costを含むセット単位の指標を提案します。提案手法はソルバ拡張型であり、コミットメントを抽出し、グローバルな充足可能性を検証し、反例に導かれる修復を実行します。4つの推論領域において、提案手法は、クエリごとの精度を維持しつつ、クエリ間の矛盾を大幅に低減します（SetCons: 0.56 から 0.94）。これは、頑健なマルチクエリ推論にはグローバルな整合性が重要であることを示しています。