要旨: 言語による自信の引き出し(verbal confidence elicitation)は、LLMから不確実性推定値を抽出するために広く用いられています。本研究では、7つの指示にチューニングされたオープンウェイト・モデル(3〜9Bパラメータ、4系統)が、強欲デコード(greedy decoding)による最小限の数値引き出しのもとで、アイテム単位のType-2識別のための最小限の妥当性基準を満たす言語化された自信を生成するかどうかを検証しました。事前登録された研究(OSF: osf.io/azbvx)では、524のTriviaQA項目を、数値(0〜100)およびカテゴリ(10クラス)の引き出し条件で、消費者向けハードウェア上のQ5_K_M量子化で8つのモデルに対して実施し、8,384件の決定論的試行を得ました。心理測定学的妥当性スクリーニングを、各モデル形式セルに対して適用しました。7つの指示モデルはいずれも数値による自信では無効(Invalid)に分類されました(H2確認、7/7 vs. 予測 >=4/7)。平均の天井率(ceiling rate)は91.7%でした(H1確認)。カテゴリによる引き出しでは妥当性は救済されませんでした。むしろ、7つのモデルのうち6つでタスク性能を破壊し、精度が5%未満となりました(H4未確認)。トークンレベルの対数尤度(logprobability)は、観測された分散の条件下では、言語化された自信を有用に予測しませんでした(H5確認、平均の交差検証R^2 < 0.01)。推論を蒸留したモデルにおいては、推論トレース長が自信と強い負の偏相関を示しました(rho = -0.36, p < .001)。これは、Reasoning Contamination Effect(推論汚染効果)と整合的です。これらの結果は、内部の不確実性表現が存在しないことを意味するものではありません。しかし、このモデル規模の条件では、最小限の言語による引き出しが出力インターフェースで内部信号を保持できないことを示しています。そのような信号の下流利用(downstream use)の前には、心理測定学的スクリーニングを行うべきです。
3〜9Bのオープンウェイト指示追従LLMにおける「言語的自信」の飽和:前登録された心理測定的妥当性スクリーニング
arXiv cs.AI / 2026/4/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、7つの3〜9B規模のオープンウェイト・指示追従LLMが、低負荷な推論・抽出条件(貪欲デコード、最小限の数値照会など)下で、項目レベルのType-2識別に必要な最小限の心理測定的妥当性基準を満たす「言語化された自信」を生成できるかを検証している。
- 前登録研究ではTriviaQA 524問を用い、数値(0-100)とカテゴリ(10クラス)で8モデルを評価して8,384件の決定論的試行を実施した。その結果、数値の自信については7モデルすべてが「Invalid」と判定され、平均の天井率は約91.7%だった。
- カテゴリ(10クラス)での自信抽出に切り替えても妥当性は回復せず、むしろ7モデル中6モデルでタスク精度が悪化し、5%未満となった。
- トークン単位の対数確率は、観測されたばらつきの条件下では言語化された自信を有意に予測できなかった(交差検証R^2 < 0.01)。
- 推論蒸留モデルでは、推論トレース長が自信と強い負の部分相関(rho = -0.36、p < .001)を示し、「推論汚染効果」と整合的な結果になった。著者らは、このモデル規模では最小限の言語的抽出が内部の不確実性シグナルを出力インターフェースに保てない可能性を示し、下流利用の前に心理測定的スクリーニングを行うべきだと結論づけている。




