単一プロンプト精度では見落とすもの:言語モデルのマルチバリアント信頼性監査

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、単一プロンプトの精度では重要な信頼性の失敗が隠れてしまうと主張し、多数のモデル×データセット×条件に対して複数のプロンプト変種と、キャリブレーション/頑健性など複数指標で信頼性監査を行います。
  • 評価設計そのものが結論を大きく左右し得ることを示し、ECE(Expected Calibration Error)の定義変更でセルごとのキャリブレーションが平均で0.149(絶対値平均)変化するほか、チェーン・オブ・ソート提示と「先頭文字」評価器の組み合わせで見かけの精度が72〜88%低下します。
  • いくつかの性能低下はモデル側ではなく評価器側の問題に起因するようで、2つの独立した“修復”手続きにより失われた性能の93.8%〜102.7%が回復することが示されます。
  • 自信(confidence)や言語化された振る舞いは脆く、MMLU-Proでは口頭で報告される自信が同じ行の精度やトークン確率の自信(キャリブレーション)よりも高くなるなど整合しないことがあり、さらに発話のパース可能率が特定のモデルやプロンプト変種で崩れることもあります。
  • プロンプト頑健性はパラメータ数と一貫して相関せず、10の指示モデル間で相関係数はベンチマークごとに-0.244〜0.474の範囲で符号も含めて変動するため、モデル規模だけでは信頼性を代理できないことが示唆されます。