要旨: 大規模言語モデル(LLM)は表形式の質問応答にますます導入されているが、構造化データに対するキャリブレーションはほとんど研究されていない。本論文は、5つの最先端LLMと2つの表形式QAベンチマークにまたがって、5つの信頼度推定手法を初めて体系的に比較することを提示する。全てのモデルは深刻に過信頼であり(滑らかなECE 0.35-0.64、テキストQAで報告される 0.10-0.15 に対して)、両方のベンチマークおよび4つの完全にカバーされた全モデルにわたって一貫した「自己評価 vs 摂動」という二分法が再現される。自己評価手法(言語化された評価、P(True))はAUROC 0.42-0.76を達成するのに対し、摂動手法(意味エントロピー、自貫性、および我々の Multi-Format Agreement)はAUROC 0.78-0.86を達成する。モデルごとのペア化ブートストラップ検定では、Holm-Bonferroni補正後に帰無仮説が p<0.001 で棄却され、GPT-4o-mini に対する3シードの確認では、シードごとの標準偏差がわずか 0.006 であることが示される。本論文は Multi-Format Agreement(MFA)を提案する。これは、構造化データに固有の、損失を伴わない決定的なシリアライズの変化(Markdown、HTML、JSON、CSV)を活用して、サンプリング基準よりAPIコストを20%低く抑えつつ信頼度を推定する。MFAはECEを44-63%低減し、TableBenchでは4つの全モデルにわたって一般化可能で(平均AUROC 0.80)、さらにサンプリングと補完的に組み合わせられる。すなわち、MFA + 自貫性エンサンブルによりAUROCは0.74から0.82へと引き上げられる。第2の貢献として、構造を考慮した再キャリブレーションは、標準的な事後(post-hoc)手法に比べてAUROCを+10パーセンテージポイント改善する。
表形式の質問応答における較正された信頼度推定
arXiv cs.CL / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、2つの表形式QAベンチマークに対して、5つの最先端LLMを用い、表形式の質問応答における5つの信頼度推定手法を最初に体系的に比較したことを報告している。
- その結果、LLMは構造化された表形式データに対して一貫して深刻な過信頼を示すことが分かった(平滑化ECE 0.35〜0.64)。テキストQAで報告されているはるかに良好な較正挙動とは対照的である。
- 結果は明確な傾向を示している。自己評価ベースの手法は(AUROC 0.42〜0.76)摂動ベースの手法(セマンティックエントロピー、自記述的一貫性、およびMulti-Format Agreement)に比べて劣り、後者は(AUROC 0.78〜0.86)に到達する。
- 提案するMulti-Format Agreement(MFA)は、Markdown/HTML/JSON/CSVのような決定論的でロスレスなシリアライズの差異を活用して信頼度を推定し、サンプリング手法に比べてECEを44〜63%低減しつつ、APIコストも約20%削減する。
- 構造を考慮した再較正によりさらに性能が向上し、MFAとサンプリングアンサンブルを組み合わせることでAUROCを0.74から0.82へ引き上げる。




