三値論理質問応答における一貫性誘導付き復号と証明駆動の曖昧性解消

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は三値論理QAを扱い、モデルが前提集合に対して仮説に True/False/Unknown のいずれかを割り当てる必要がある状況を対象とし、否定の一貫性不整合や不適切なエピステミック Unknown 予測といった失敗モードを取り上げる。
  • CGD-PD は、軽量なテスト時復号(decoding)レイヤであり、仮説 H とその機械的に否定した形式の両方に対して単一の三値分類器を問い合わせ、その可能な範囲で否定に関して一貫した出力を強制する。
  • 残りの Unknown ケースでは、CGD-PD が、ラベルを「生の不確実性」に頼るのではなく、的を絞った二値含意(entailment)プローブを用いることで、証明駆動の曖昧性解消を行い、より選択的にラベルを確定する。
  • FOLIO ベンチマークの一階述語論理フィールドで評価したところ、この手法は最前線の LLM すべてに対して一貫して精度を改善し、相対的な向上が最大 16% で、Unknown 予測の削減も達成できる。さらに平均で約 4〜5 回のモデル呼び出しのみで実現する。

Abstract

3値論理による論理的質問応答(QA)は、前提集合 S が与えられたもとで、仮説 HTrue/False/Unknown を割り当てます。現代の大規模言語モデル(LLM)は単独の例に対しては高い正確性を示し得ますが、本研究では3値論理QAにおける、繰り返し現れる2つの失敗モードを指摘します:(i) 否定の不整合。ここでは、H eg H への回答が、決定論的なラベル対応(ラベル割り当て)に違反します。 (ii) エピステミックな Unknown。ここでは、S が一方を含意するにもかかわらず、不確実性や不安定さのためにモデルが Unknown を予測します。本研究では、軽量なテスト時レイヤである CGD-PD を提案します。これは (a) H と、機械的に否定化した H の両方に対して単一の3値分類器を問い合わせ、(b) 可能な場合には、その対を否定整合な意思決定へ射影し、(c) さらに、証明に基づく曖昧性解消ステップを呼び出します。このステップは、狙いを定めた二値含意プローブを用いて、Unknown の結果を選択的に解消し、モデル呼び出しを平均で 4~5 回だけ必要とします。FOLIO ベンチマークの一階述語論理フィールドにおいて、CGD-PD は最先端の LLM 間で一貫した改善をもたらし、基礎モデルに対する相対的な精度向上が最大 16% に達するとともに、Unknown の予測も低減します。