選択後分布推定モデル評価(Post-Selection Distributional Model Evaluation)

arXiv stat.ML / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なモデル評価は既知のKPIを満たすことに焦点を当てがちだが、多くの実世界のシナリオでは、目標KPIを事前に知らないまま、性能と信頼性のトレードオフ全範囲にわたってモデルを比較する必要があると主張する。
  • 任意のデータ依存的な候補モデルの事前選択の後に、テスト時KPIの分布を推定するための枠組みとして、選択後分布推定モデル評価(PS-DME)を導入する。
  • PS-DMEは、分布的KPI推定における選択後の過剰カバー(post-selection false coverage rate: FCR)を制御するためにe-valueを用いることで、選択後バイアスに対処する。
  • 著者らは、PS-DMEがサンプル分割に依存するベースラインよりもサンプル効率が高いことを証明する。
  • 実験(大規模言語モデルによるテキストto-SQL、通信ネットワーク評価を含む)により、PS-DMEが複数の信頼性レベルにまたがって、統計的に信頼できるモデル/構成の比較を可能にすることが示される。

要旨: 厳密なモデル評価手法は通常、モデルが所定の目標キー・パフォーマンス指標(KPI)水準を満たしていることを証明します。しかし多くのアプリケーションでは、関連する目標KPI水準が事前に分かっていない場合があり、その場合ユーザーは、テスト時にモデルによって達成可能な性能と信頼性の間の全てのトレードオフを分析することで、候補モデルを比較したいと考えるかもしれません。この課題は、テスト時のKPI分布を信頼性高く推定することを必要とするため、しばしば同じデータを、候補モデルの部分集合を事前選択するためにも、これらのKPI分布を推定するためにも用いなければならないという事実によって一層複雑になります。これにより、事後選択バイアスの可能性が生じます。本研究では、任意のデータ依存的なモデル事前選択の後に統計的に妥当な分布ベースのモデル評価を行う、事後選択分布的モデル評価(PS-DME)を導入します。e値に基づき、PS-DMEは分布的KPI推定に対する事後選択偽カバレッジ率(FCR)を制御し、標本分割に基づくベースライン手法よりも標本効率が高いことが証明されます。合成データ、巨大言語モデルによるテキストからSQLへのデコード、ならびに通信ネットワーク性能評価に関する実験により、PS-DMEは幅広い信頼性水準にわたって候補構成を信頼性高く比較でき、性能--信頼性トレードオフを統計的に信頼性高く探索することを可能にすることが示されます。