修正ヒントが逆効果になるとき：OWL 2 DLにおける過度な慎重さの「推論器ガイド付き修復」に見るプロンプト設計

要点

本研究は、OWL 2 DL準拠の問い合わせにおいてGPT-5.4が再現性のある失敗パターンを示すことを報告しており、FunctionalPropertyの閉包やクラスの非両立（disjointness）条件で推論器が「no」を導く場合に、モデルがしばしば「unknown」と答えると述べている。
推論器で監査した180件のクエリ（さらに保留検証用として18件、保険と臨床の2領域）を用い、研究者はクエリ予算を揃えた上で4つのプロンプト／対話モードを比較した。
一般的なリトライ（「あなたは間違っています」系）のみでも、直接的な忠実性は43.9%から81.7%へ大きく改善し、対照的に推論器ガイド付き修復で明示的なオープンワールド前提（OWA）ヒントを入れると改善せず、ヒントなしより悪化した（67.2% vs. より高い「判決のみ」）。
「判決のみ」の推論器ガイド付き修復は忠実性97.8%にほぼ到達し、同じ誤りの特徴（フィンガープリント）が保留クエリの全誤りを説明した（4/4）。
著者らは、修正すべき内容よりもプロンプトの枠組み（フレーミング）が効くことがあり得るため、推論器ガイド付きラッパーは「ヒントが効く」と決め打ちせず、必ずアブレーションで検証すべきだと結論づけている。

概要: OWL~2~DL 準拠クエリにおける GPT-5.4 の、再現可能な誤りパターンを報告します。このモデルは、

a

a
reasoner によって導出される答えが「no」であり、

a

a
n
a

a

a
n

a

\emph{FunctionalProperty} の閉包、またはクラス \emph{disjointness} のもとでは、reasoner が導出した答えが「no」であるのに、モデルは頻繁に ``unknown'' と答えます。
この観測されたパターンの手続き的な展開から得た、reasoner が監査した 180 個のクエリと、2 つの無関係な領域（保険と臨床）において手書きで作成した 18 個の保持（held-out）クエリを用いて、同一のクエリ予算のもとで 4 つの対話モードを比較します：シングルショット、汎用的な ``you-are-wrong'' のリトライを 3 ラウンド、開放世界仮定（OWA）ヒントによる reasoner の判定に基づく修復を 3 ラウンド、そしてヒントなしで同様の修復を行う方式です。
直接的な忠実性は 43.9\,\%（Wilson 95\,\% 信頼区間 $[36.8,51.2]$ ）です；汎用リトライは 81.7\,\%（ $[75.4,86.6]$ ）に到達します；ヒント付きの判決（verdict）による修復バリアントは \emph{より悪く}、67.2\,\%（ $[60.1,73.7]$ ）です；判決のみのバリアントは 97.8\,\%（ $[94.4,99.1]$ ）に到達します。
McNemar の正確検定におけるボンフェローニ補正（ $\alpha = 0.01$ ；全ての $p < 10^{-5}$ ）では、すべてのペアワイズ比較が有意なままです。
同じ指紋が、保持クエリにおける 4/4 の誤りを説明します。
解釈には限界があります：プロンプトの枠組みは、修正のための内容よりも重要になり得、reasoner に導かれるラッパーは明示的にアブレーションすべきです。

修正ヒントが逆効果になるとき：OWL 2 DLにおける過度な慎重さの「推論器ガイド付き修復」に見るプロンプト設計

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点