大規模言語モデルに対する実現可能性を考慮したカバレッジ保証付きの集合値予測

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデルの従来の単一応答(点)出力では性能を過小評価し得ることを主張し、候補となる複数の解答からなる集合値予測へ切り替えることを提案する。
  • 有限でサンプリングに基づくLLM生成という性質により、すべての質問に対してカバレッジを常に達成できるわけではないことを示す、実現可能性を考慮したカバレッジ保証の枠組みを導入する。
  • さらに、たとえ反復サンプリングを行っても、統計的なカバレッジ保証を満たせない「達成可能最小リスク(MRL)」の水準を定義する。
  • サンプルされた応答を用いて閾値を推定するデータ駆動型のキャリブレーション手法を提示し、リスク目標が実現可能な場合に、所望の確率で正解を含む予測集合を可能にする。
  • 6つの生成タスクと5つのLLMにわたる実験により、このアプローチが統計的に妥当であり、信頼できる予測集合を効率的に生成できることが示される。

要旨: 大規模言語モデル(LLM)は本質的に大きな生成空間上で動作しますが、従来の利用では通常、最も可能性の高い生成(MLG)を点予測として報告することが多く、その結果モデルの能力を過小評価してしまいます。上位にランクされた応答が誤っている場合でも、より広い出力空間の中には妥当な答えが依然として存在し、繰り返しサンプリングによって発見できる可能性があります。この観察は、点予測から集合値予測へ移行することを動機づけます。集合値予測では、モデルが単一のMLGではなく、候補となる応答の集合を生成します。本論文では、集合値予測のための原理に基づく枠組みを提案し、実行可能性を考慮したカバレッジ保証を提供します。LLM生成が有限サンプルであるという性質を踏まえると、カバレッジが常に達成可能とは限らないことを示します。複数回のサンプリングを行っても、サンプルされた候補集合の中の特定の質問に対して、LLMが受容可能な応答を生成できない場合があります。これに対処するため、達成可能な最小リスク水準(MRL)を定め、それを下回ると統計的カバレッジ保証を満たせないことを確立します。この洞察に基づき、さらにデータ駆動型のキャリブレーション手続きを開発します。この手続きでは、厳密な閾値を推定することで、サンプルされた応答から予測集合を構築し、目標とするリスク水準が実現可能である場合には、その結果得られる集合が所望の確率で正しい答えを含むことを保証します。5つのLLMと6つの言語生成タスクに対して行った大規模な実験により、本枠組みの統計的妥当性と予測の効率の両方が示されます。