AI Navigate

信号検出器としてのLLMs:感度・バイアスと温度-基準の類推

arXiv cs.CL / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMsの較正指標が感度とバイアスを混同していると主張し、これらの成分を分離してより正確な評価を行うために信号検知理論(SDT)の使用を提案している。
  • 168,000回の試行と3つの大規模言語モデル(LLMs)に対して、不等分散モデリング、基準推定、およびz-ROC分析を含む完全なパラメトリックSDTフレームワークを適用している。
  • 温度が基準シフトとして機能するかを検討しており、温度は生成される出力自体も変化させるため、このアナロジーは崩れる可能性があることを示した。
  • 結果はモデル間で不等分散の証拠分布を示し、指示型モデルは z-ROC の傾斜においてより顕著な非対称性を示し、また較正指標だけでは感度とバイアスを区別できないことを実証し、完全なSDTフレームワークの価値を浮き彫りにしている。

要旨:大規模言語モデル(LLMs)は、期待キャリブレーション誤差(Expected Calibration Error)などの指標を用いてキャリブレーションを評価するが、これは2つの異なる成分を混同している。すなわち、正しい回答と誤っている回答を識別するモデルの能力(感度)と、自信を持って回答する傾向または慎重に回答する傾向(バイアス)である。信号検出理論(SDT)はこれらの成分を分解する。AUROC のような SDT由来の指標がますます用いられている一方で、完全なパラメトリック枠組み(不等分散モデルのフィッティング、閾値推定、z-ROC解析)は、信号検出器としてのLLMsにはまだ適用されていない。この事前登録済み研究では、3つのLLMを観察者として事実の識別を168,000回の試行で行わせ、人間の心理物理学における報酬操作に類似した基準のシフトとして温度が機能するかどうかを検証する。重要なのは、この類推は崩れる可能性がある。温度は割り当てられる自信だけでなく、生成される回答自体を変化させるためである。我々の結果は、温度が感度(AUC)を同時に高め、基準を移動させることでこの類推の崩れを確認した。すべてのモデルは不等分散のエビデンス分布を示し(z-ROCの傾き0.52-0.84)、指示調整済みモデルは基底モデル(0.77-0.87)や人間の認識記憶(約0.80)よりも非対称性がより極端である(0.52-0.63)。SDT分解は、感度とバイアスの空間でそれぞれ異なる位置を占めるモデルが、キャリブレーション指標だけでは区別できないことを明らかにし、完全なパラメトリック枠組みが既存の指標だけでは得られない診断情報を提供することを示した。