大規模言語モデルにおけるダニング=クルーガー効果:信頼度キャリブレーションの実証研究
arXiv cs.AI / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、最先端のLLM4つ(Claude Haiku 4.5、Gemini 2.5 Pro、Gemini 2.5 Flash、Kimi K2)を対象に、信頼度のキャリブレーションを検証するため、4つのベンチマークデータセットを横断して合計24,000件の実験試行を実施した。
- 著しいキャリブレーションの差が見られ、Kimi K2は23.3%の正確さにもかかわらずECEが0.726で過信が強い一方、Claude Haiku 4.5は75.4%の正確さでECE=0.122という最良のキャリブレーションを示した。
- 結果は、低パフォーマンスのモデルがより高い過信を示すダニング=クルーガー効果に類似したパターンを示唆しており、人間の認知と類似している。
- 著者らは高リスクな応用分野におけるLLMsの安全な展開への含意を論じ、今後のモデル評価と展開におけるキャリブレーションの考慮事項を強調している。
大規模言語モデル(LLMs)は多様なタスクにおいて顕著な能力を示してきた一方で、自身の信頼度を正確に評価する能力は依然として十分には理解されていません。私たちは、LLMs がダニング=クルーガー効果と呼ばれる認知バイアス、すなわち能力が限られている個人が自分の能力を過大評価しがちであるという特徴を示すかどうかを調査する実証的研究を提示します。4つの最先端モデル(Claude Haiku 4.5、Gemini 2.5 Pro、Gemini 2.5 Flash、Kimi K2)を、4つのベンチマークデータセットを横断して評価し、総計24,000件の実験試行を行います。我々の結果は、著しいキャリブレーションの差を示します。Kimi K2は23.3%の精度にもかかわらずECEが0.726という過度の信頼を示す一方、Claude Haiku 4.5は75.4%の精度で最良のキャリブレーションを達成し、ECE=0.122となります。これらの発見は、低性能のモデルが著しく高い過信を示すということを示しており、人間の認知におけるダニング=クルーガー効果に類似したパターンです。我々は高リスクの応用におけるLLMsの安全な展開への含意を論じ、今後のモデル評価と展開におけるキャリブレーションの考慮事項を強調します。