LLMは自分が何を知っているのかを知っているのか？信号検出理論によるメタ認知的効率の測定

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的なLLMの信頼度キャリブレーション指標（例：ECE、Brierスコア）が、2つの能力—タイプ1の感度（どれだけモデルが知っているか）と、タイプ2のメタ認知的感度（自分が何を知っているかをどれだけうまく知っているか）—を混ぜ合わせてしまっていると主張する。
タイプ2信号検出理論を用いた評価フレームワークを提案し、meta-d'とM-ratioを導入することで、メタ認知能力とメタ認知的効率をそれぞれ別に測定する。
224,000件の事実的QA試行における4つのLLMでの実験では、タイプ1の感度が類似していてもメタ認知的効率には大きな違いがあることが示される。さらに、d'では最上位だがM-ratioでは最下位のモデルが存在する。
本研究は、メタ認知的効率が領域固有であり、温度の変化によってシフトし得ることを明らかにする。これは、一部のモデルでは、信頼度ポリシー（タイプ2の基準）が、根本的なメタ認知能力から独立して動き得ることを示唆している。
AUROC_2とM-ratioはモデルのランキングを完全に反転させることがあり、これらの指標は根本的に異なる評価の問いに答えていることが示される。これには、モデル選定やデプロイメントへの含意がある。

この記事の続きは原文サイトでお読みいただけます。