検証が失敗するとき:構成的に不可能な主張が却下を逃れる仕組み
arXiv cs.CL / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、クローズド・ワールド・アサンプション(CWA)の下での科学的主張の検証を研究しており、主張は、提示されたすべての制約が証拠によって正に裏付けられている場合にのみ受理されるべきだとする。
- 既存の検証ベンチマークは、すべての制約ではなく最も顕著な制約にだけ注目することで、ショートカット(顕著-制約のチェック)を用いるモデルを検出できていないと論じる。
- 著者らは、顕著な制約は支持されている一方で、非顕著な制約が否定されている「構成的に不可能な主張」を導入し、多くのモデルがこの種の主張を過度に受理してしまうことを明らかにする。
- 複数のモデルファミリとモダリティにわたる結果は、広範なショートカット推論の存在を示し、文脈介入によって、モデルの違いは根本的な推論能力というより検証のしきい値に主に現れることを示す。
- 本論文は、構成的推論のボトルネックが、現在の検証行動における構造的な制約であり、プロンプト/戦略のガイダンスだけでは信頼性をもっては修正できないと結論づける。
