時間推論はボトルネックではない：確率的不整合フレームワークによる神経記号QA

arXiv cs.AI / 2026/5/7

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複雑な時間推論課題におけるLLMの脆さは、自己回帰的な論理推論の欠陥が主因というよりも、非構造なテキストから出来事表現へ変換する過程での失敗にあると主張しています。
提案手法では、テキストを明示的な出来事グラフと区間制約へ変換し、意味抽出と記号推論エンジンを切り離す神経記号型のQAフレームワークを導入しています。
Probabilistic Inconsistency Signal（PIS）により、象徴的なクレダル区間と、LLMの隠れ状態から得るEvidential Deep Learningによるニューラルな認識論的不確実性を統合し、構造的な破綻を検出します。
実験では、正しい構造表現が与えられる場合に時間算術ベンチマークで精度1.0（4000/4000）かつ時間的誤りの誤検出・見逃しがゼロであることが示されています。
ノイズ混入のQA設定でも75.1%の精度を維持し、明示的な推論トレースにより失敗箇所を決定論的にステップ単位で特定できるため、時間QAを「アルゴリズム的推論」から「構造整合の問題」として捉え直す道筋を提示しています。

要旨: 大規模言語モデル（LLM）は、目覚ましい進歩にもかかわらず、複雑な時間的推論タスクにおいて脆弱な性能を示し続けています。この失敗モードは、自己回帰的な論理演繹に内在する欠陥によるものだと広く考えられています。本論文では、この広く受け入れられている物語に異議を唱え、時間的推論が根本的なボトルネックではないことを示します。むしろ失敗の所在は、非構造化テキストからイベント表現へと変換する過程にあります。私たちは、知覚の誤りと推論の失敗を明示的に切り分ける確率的不整合シグナル（Probabilistic Inconsistency Signal: PIS）によって統制される、新しい神経記号（neuro-symbolic）型の質問応答フレームワークを提案します。非構造化テキストを明示的なイベントグラフと区間制約へ持ち上げることで、私たちのアーキテクチャは意味抽出を記号推論エンジンから厳密にデカップル（分離）します。構造的な断絶を頑健に検出するために、PISは、記号的クレデンシャル区間と、LLMの隠れ状態からEvidential Deep Learningによって抽出される認識論的なニューラル不確実性を、見事に統一します。実験評価により、顕著なパラダイム転換が明らかになります。正しい構造表現が与えられると、私たちのシステムの明示的な証明トレースは完全な1.0精度（4000/4000）を達成し、時間的算術ベンチマークにおいて誤検出（偽陽性）/見逃し（偽陰性）は厳密にゼロです。より広範な、ノイズを注入したQA設定でも、このフレームワークは競争力のある75.1 %の精度を維持しつつ、決定的で、ステップ単位の失敗箇所特定を可能にします。最終的に、本研究は表現ボトルネックを推論基盤から切り離すことで、時間的QAをアルゴリズム的推論の課題から、構造的アライメント（整合）問題へと再定義し、信頼できる神経記号AIのための検証可能な前進の道筋を示します。