QuantSightBench:予測区間によるLLMの定量的予測の評価

arXiv cs.LG / 2026/4/20

📰 ニュースModels & Research

要点

  • この論文では、既存のLLM評価が不確実性を扱うとしても二択や多肢選択などの判断型タスクに偏っており、連続的な数値量の予測といった実務のニーズを捉えきれていないと指摘しています。
  • 不確実性を明示し検証可能にする評価形式として、予測区間(prediction intervals)を提案し、信頼水準間の整合性や、結果の連続体にわたるキャリブレーションが求められる点を強調しています。
  • 新しいベンチマークQuantSightBenchを導入し、経験的カバレッジや区間のシャープさなどで11のフロンティアモデルおよびオープンウェイトモデルを複数条件で評価しています。
  • 結果として、評価対象のいずれのモデルも90%カバレッジ目標を達成せず、上位モデルであるGemini 3.1 Pro(79.1%)、Grok 4(76.4%)、GPT-5.4(75.3%)はいずれも少なくとも10ポイント以上不足していました。
  • カバレッジの悪化は極端な大きさで急激に起き、評価した全モデルに共通して体系的な過信(overconfidence)が示されたと報告しています。