要旨: 大規模言語モデルは、複数の関連する問いを推論する際に、相互に矛盾した回答を頻繁に生成します。本研究では、ケースファイルの論理的一貫性、すなわち相互依存する問いにまたがって、グローバルに充足可能な信念状態を維持することを扱います。含意/矛盾/不明のラベルを備えた、390件のマルチクエリ推論インスタンスからなるベンチマークを導入し、Case Satisfiability Rate、Contradiction Density、Revision Costを含むセット単位の指標を提案します。提案手法はソルバ拡張型であり、コミットメントを抽出し、グローバルな充足可能性を検証し、反例に導かれる修復を実行します。4つの推論領域において、提案手法は、クエリごとの精度を維持しつつ、クエリ間の矛盾を大幅に低減します(SetCons: 0.56 から 0.94)。これは、頑健なマルチクエリ推論にはグローバルな整合性が重要であることを示しています。
複数クエリLLM推論におけるクロスクエリの矛盾を定量化する
arXiv cs.AI / 2026/4/17
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、関連する複数のクエリに対してLLMが相互に矛盾する回答を出しがちな理由を、グローバルに充足可能な信念状態を維持する問題として扱います。
- 390件のマルチクエリ推論インスタンスからなる新しいベンチマークを提示し、各ケースを含意・矛盾・不明のラベルで分類した上で、Case Satisfiability Rate(事例充足率)やContradiction Density(矛盾密度)、Revision Cost(修正コスト)といった集合レベルの評価指標を提案します。
- 確約(コミットメント)を抽出し、全体の充足可能性を検証したうえで、反例に基づく修復(counterexample-guided repair)で不整合を直す、ソルバー併用アプローチを提案します。
- 4つの推論ドメインでの実験により、提案手法がクロスクエリの矛盾を大幅に低減(SetCons: 0.56→0.94)しつつ、クエリごとの精度を維持できることが示され、グローバルな整合性の重要性が明確になります。



