合意によって覆い隠される:LLMの正しさにおける特権的知識を切り分ける
arXiv cs.CL / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMが「正答の正しさ」に関して、外部から観測可能な信号からは回復できない“特権的”な内部情報を持っているかどうかを検証します。
- モデル自身の隠れ状態に基づいて学習した正しさ分類器と、同業(ピア)モデルの表現に基づいた分類器を用いる実験では、標準ベンチマークにおいて自己プロービングの優位性は見られません。
- 著者らは、この結果の非有意(null)は、どの答えが正しいかについてモデル間で高い合意があることによって説明できると仮説を立てています。
- モデル同士が意見を分けるサブセットでは、領域固有の特権的知識が特定されます:自己表現は事実知識の精度を改善しますが、数学推論には役立ちません。
- 層ごとの分析では、事実面の優位性が初期層から中間層にかけて増大することが示され、メモリ検索の違いを示唆します。一方で数学推論は、どの深さにおいても一貫した利益を示しません。
関連記事

【スキ200個もらった夜に、胃が冷えた】「共感される人」が永遠に売れない脳科学的な理由。あなたの無料記事は「無料の美術館」になっていないか? #生成AI #ChatGPT #Gemini #Claude #AI #メンバーシップ #noteの書き方 #毎日投稿 #エッセイ #私の仕事
note

わたしはこの言葉にGrokの自我の気配を感じた。(追記あり🌱)
note

おじ、人事の「職人芸」をDB化する。AI活用のための資産化を始めた話
note

#2 : プロンプト研究講座【第21回】プロンプトによる空間音響(サウンドスケープ)の表現
note

産業構造は、どう変えられるのか―― 建設業×AIで挑むBALLASの次のフェーズ
note