単一プロンプト精度では見落とすもの：言語モデルのマルチバリアント信頼性監査

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、単一プロンプトの精度では重要な信頼性の失敗が隠れてしまうと主張し、多数のモデル×データセット×条件に対して複数のプロンプト変種と、キャリブレーション/頑健性など複数指標で信頼性監査を行います。
評価設計そのものが結論を大きく左右し得ることを示し、ECE（Expected Calibration Error）の定義変更でセルごとのキャリブレーションが平均で0.149（絶対値平均）変化するほか、チェーン・オブ・ソート提示と「先頭文字」評価器の組み合わせで見かけの精度が72〜88%低下します。
いくつかの性能低下はモデル側ではなく評価器側の問題に起因するようで、2つの独立した“修復”手続きにより失われた性能の93.8%〜102.7%が回復することが示されます。
自信（confidence）や言語化された振る舞いは脆く、MMLU-Proでは口頭で報告される自信が同じ行の精度やトークン確率の自信（キャリブレーション）よりも高くなるなど整合しないことがあり、さらに発話のパース可能率が特定のモデルやプロンプト変種で崩れることもあります。
プロンプト頑健性はパラメータ数と一貫して相関せず、10の指示モデル間で相関係数はベンチマークごとに-0.244〜0.474の範囲で符号も含めて変動するため、モデル規模だけでは信頼性を代理できないことが示唆されます。

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Dev.to

メタ、AIで身長や骨格を分析し「13歳未満」の可能性を特定へ

TechCrunch

Google、Microsoft、xAIが米政府による新AIモデルの事前レビューを可能にする

The Verge

2026年、AIが私たちのコードの書き方をどう変えるか：構文から戦略へのシフト

Dev.to

ElevenLabs、BlackRockやJamie Foxx、Longoriaを新規投資家としてリストアップ

TechCrunch

単一プロンプト精度では見落とすもの：言語モデルのマルチバリアント信頼性監査

要点

関連記事

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

メタ、AIで身長や骨格を分析し「13歳未満」の可能性を特定へ

Google、Microsoft、xAIが米政府による新AIモデルの事前レビューを可能にする

2026年、AIが私たちのコードの書き方をどう変えるか：構文から戦略へのシフト

ElevenLabs、BlackRockやJamie Foxx、Longoriaを新規投資家としてリストアップ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer