表層的な統計の先へ:内部表現に基づくLLMのための頑健な確率的予測(Conformal Prediction)

arXiv cs.CL / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、信頼性が重要となるLLMの導入場面において、トークン確率やエントロピー、自動整合性などの出力レベルの不確実性指標が、デプロイ時の分布ずれで脆くなり得る問題に取り組む。
  • LLMの質問応答に対して、出力に面した不確実性ではなく内部表現から得た非適合度(nonconformity score)を用いる確率的予測(conformal prediction)枠組みを提案する。
  • とくに、入力条件付けがモデルの深さ方向で予測エントロピーをどのように変えるかを測る Layer-Wise Information(LI)スコアを導入し、それを非適合度として通常のsplit conformalパイプラインに組み込む。
  • クローズド形式およびオープンドメインのQAベンチマークで評価した結果、特にクロスドメインシフト下で、強力なテキストベースの基準よりも妥当性(validity)と効率(efficiency)のトレードオフが改善する。
  • 同一の名目リスク水準で、ドメイン内の信頼性も競争力のある水準を維持できることが示され、内部表現に基づく指標が分布ずれ時により安定で有用なconformalスコアになり得ることを示唆する。