概要: OWL~2~DL 準拠クエリにおける GPT-5.4 の、再現可能な誤りパターンを報告します。このモデルは、
a
a
reasoner によって導出される答えが「no」であり、
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
n
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
n
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
\emph{FunctionalProperty} の閉包、またはクラス \emph{disjointness} のもとでは、reasoner が導出した答えが「no」であるのに、モデルは頻繁に ``unknown'' と答えます。
この観測されたパターンの手続き的な展開から得た、reasoner が監査した 180 個のクエリと、2 つの無関係な領域(保険と臨床)において手書きで作成した 18 個の保持(held-out)クエリを用いて、同一のクエリ予算のもとで 4 つの対話モードを比較します:シングルショット、汎用的な ``you-are-wrong'' のリトライを 3 ラウンド、開放世界仮定(OWA)ヒントによる reasoner の判定に基づく修復を 3 ラウンド、そしてヒントなしで同様の修復を行う方式です。
直接的な忠実性は 43.9\,\%(Wilson 95\,\% 信頼区間 [36.8,51.2])です;汎用リトライは 81.7\,\%([75.4,86.6])に到達します;ヒント付きの判決(verdict)による修復バリアントは \emph{より悪く}、67.2\,\%([60.1,73.7])です;判決のみのバリアントは 97.8\,\%([94.4,99.1])に到達します。
McNemar の正確検定におけるボンフェローニ補正(\alpha = 0.01;全ての p < 10^{-5})では、すべてのペアワイズ比較が有意なままです。
同じ指紋が、保持クエリにおける 4/4 の誤りを説明します。
解釈には限界があります:プロンプトの枠組みは、修正のための内容よりも重要になり得、reasoner に導かれるラッパーは明示的にアブレーションすべきです。

