Abstract
3値論理による論理的質問応答(QA)は、前提集合 S が与えられたもとで、仮説 H に True/False/Unknown を割り当てます。現代の大規模言語モデル(LLM)は単独の例に対しては高い正確性を示し得ますが、本研究では3値論理QAにおける、繰り返し現れる2つの失敗モードを指摘します:(i) 否定の不整合。ここでは、H と
eg H への回答が、決定論的なラベル対応(ラベル割り当て)に違反します。 (ii) エピステミックな Unknown。ここでは、S が一方を含意するにもかかわらず、不確実性や不安定さのためにモデルが Unknown を予測します。本研究では、軽量なテスト時レイヤである CGD-PD を提案します。これは (a) H と、機械的に否定化した H の両方に対して単一の3値分類器を問い合わせ、(b) 可能な場合には、その対を否定整合な意思決定へ射影し、(c) さらに、証明に基づく曖昧性解消ステップを呼び出します。このステップは、狙いを定めた二値含意プローブを用いて、Unknown の結果を選択的に解消し、モデル呼び出しを平均で 4~5 回だけ必要とします。FOLIO ベンチマークの一階述語論理フィールドにおいて、CGD-PD は最先端の LLM 間で一貫した改善をもたらし、基礎モデルに対する相対的な精度向上が最大 16% に達するとともに、Unknown の予測も低減します。