修正ヒントが逆効果になるとき:OWL 2 DLにおける過度な慎重さの「推論器ガイド付き修復」に見るプロンプト設計

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、OWL 2 DL準拠の問い合わせにおいてGPT-5.4が再現性のある失敗パターンを示すことを報告しており、FunctionalPropertyの閉包やクラスの非両立(disjointness)条件で推論器が「no」を導く場合に、モデルがしばしば「unknown」と答えると述べている。
  • 推論器で監査した180件のクエリ(さらに保留検証用として18件、保険と臨床の2領域)を用い、研究者はクエリ予算を揃えた上で4つのプロンプト/対話モードを比較した。
  • 一般的なリトライ(「あなたは間違っています」系)のみでも、直接的な忠実性は43.9%から81.7%へ大きく改善し、対照的に推論器ガイド付き修復で明示的なオープンワールド前提(OWA)ヒントを入れると改善せず、ヒントなしより悪化した(67.2% vs. より高い「判決のみ」)。
  • 「判決のみ」の推論器ガイド付き修復は忠実性97.8%にほぼ到達し、同じ誤りの特徴(フィンガープリント)が保留クエリの全誤りを説明した(4/4)。
  • 著者らは、修正すべき内容よりもプロンプトの枠組み(フレーミング)が効くことがあり得るため、推論器ガイド付きラッパーは「ヒントが効く」と決め打ちせず、必ずアブレーションで検証すべきだと結論づけている。

概要: OWL~2~DL 準拠クエリにおける GPT-5.4 の、再現可能な誤りパターンを報告します。このモデルは、

a

a
reasoner によって導出される答えが「no」であり、

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a
n
a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a
n

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

a

\emph{FunctionalProperty} の閉包、またはクラス \emph{disjointness} のもとでは、reasoner が導出した答えが「no」であるのに、モデルは頻繁に ``unknown'' と答えます。
この観測されたパターンの手続き的な展開から得た、reasoner が監査した 180 個のクエリと、2 つの無関係な領域(保険と臨床)において手書きで作成した 18 個の保持(held-out)クエリを用いて、同一のクエリ予算のもとで 4 つの対話モードを比較します:シングルショット、汎用的な ``you-are-wrong'' のリトライを 3 ラウンド、開放世界仮定(OWA)ヒントによる reasoner の判定に基づく修復を 3 ラウンド、そしてヒントなしで同様の修復を行う方式です。
直接的な忠実性は 43.9\,\%(Wilson 95\,\% 信頼区間 [36.8,51.2])です;汎用リトライは 81.7\,\%([75.4,86.6])に到達します;ヒント付きの判決(verdict)による修復バリアントは \emph{より悪く}、67.2\,\%([60.1,73.7])です;判決のみのバリアントは 97.8\,\%([94.4,99.1])に到達します。
McNemar の正確検定におけるボンフェローニ補正(\alpha = 0.01;全ての p < 10^{-5})では、すべてのペアワイズ比較が有意なままです。
同じ指紋が、保持クエリにおける 4/4 の誤りを説明します。
解釈には限界があります:プロンプトの枠組みは、修正のための内容よりも重要になり得、reasoner に導かれるラッパーは明示的にアブレーションすべきです。