合意によって覆い隠される：LLMの正しさにおける特権的知識を切り分ける

arXiv cs.CL / 2026/4/15

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMが「正答の正しさ」に関して、外部から観測可能な信号からは回復できない“特権的”な内部情報を持っているかどうかを検証します。
モデル自身の隠れ状態に基づいて学習した正しさ分類器と、同業（ピア）モデルの表現に基づいた分類器を用いる実験では、標準ベンチマークにおいて自己プロービングの優位性は見られません。
著者らは、この結果の非有意（null）は、どの答えが正しいかについてモデル間で高い合意があることによって説明できると仮説を立てています。
モデル同士が意見を分けるサブセットでは、領域固有の特権的知識が特定されます：自己表現は事実知識の精度を改善しますが、数学推論には役立ちません。
層ごとの分析では、事実面の優位性が初期層から中間層にかけて増大することが示され、メモリ検索の違いを示唆します。一方で数学推論は、どの深さにおいても一貫した利益を示しません。