LLMは自分が何を知っているのかを知っているのか?信号検出理論によるメタ認知的効率の測定

arXiv cs.CL / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般的なLLMの信頼度キャリブレーション指標(例:ECE、Brierスコア)が、2つの能力—タイプ1の感度(どれだけモデルが知っているか)と、タイプ2のメタ認知的感度(自分が何を知っているかをどれだけうまく知っているか)—を混ぜ合わせてしまっていると主張する。
  • タイプ2信号検出理論を用いた評価フレームワークを提案し、meta-d'とM-ratioを導入することで、メタ認知能力とメタ認知的効率をそれぞれ別に測定する。
  • 224,000件の事実的QA試行における4つのLLMでの実験では、タイプ1の感度が類似していてもメタ認知的効率には大きな違いがあることが示される。さらに、d'では最上位だがM-ratioでは最下位のモデルが存在する。
  • 本研究は、メタ認知的効率が領域固有であり、温度の変化によってシフトし得ることを明らかにする。これは、一部のモデルでは、信頼度ポリシー(タイプ2の基準)が、根本的なメタ認知能力から独立して動き得ることを示唆している。
  • AUROC_2とM-ratioはモデルのランキングを完全に反転させることがあり、これらの指標は根本的に異なる評価の問いに答えていることが示される。これには、モデル選定やデプロイメントへの含意がある。

Abstract

LLMの信頼度の標準的な評価は、キャリブレーション指標(ECE、Brierスコア)に依存しており、それらは2つの異なる能力を混同しています。すなわち、モデルがどれだけ知っているか(タイプ1感度)と、知っていることをどれだけよく知っているか(タイプ2メタ認知感度)です。本稿では、メタ-d'とメタ認知効率比M-ratioを用いて、これらの能力を分解するタイプ2シグナル検出理論に基づく評価フレームワークを提案します。4つのLLM(Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.3、Llama-3-8B-Base、Gemma-2-9B-Instruct)に対し、224,000件の事実ベースQA試行に適用したところ、次のことが分かりました。(1)タイプ1感度が類似している場合でも、メタ認知効率はモデル間で大きく異なります――Mistralは最も高いd'を達成する一方で、最も低いM-ratioです。(2)メタ認知効率は領域固有であり、異なるモデルが異なる最も弱い領域を示しますが、集約指標では見えません。(3)温度操作はタイプ2の基準をシフトさせますが、4モデル中2モデルではmeta-d'が安定しており、信頼度ポリシーをメタ認知能力から切り離します。(4)AUROC_2とM-ratioは完全に逆転したモデル順位を生み出し、これらの指標が根本的に異なる評価の問いに答えていることを示します。meta-d'フレームワークは、「自分が知らないことを知っている」モデルと、基準の配置により単に良好にキャリブレートされているように見えるモデルとを明らかにします――この区別は、モデル選定、デプロイ、人間とAIの協働に直接的な意味を持ちます。事前登録された分析;コードとデータは公開されています。
広告