Calibrate-Then-Delegate:モデル・カスケードによるリスクと予算保証にもとづく安全モニタリング

arXiv cs.LG / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMの安全性を大規模に監視しつつコストと精度のバランスを取るためのモデル・カスケード手法「Calibrate-Then-Delegate(CTD)」を提案します。
  • 不確実性ベースでの委譲(エスカレーション)ではなく、より高コストのエキスパートに任せることの実際の有益性を予測する「Delegation Value(DV)プローブ」を導入します。
  • CTDは統計的なキャリブレーションと複数の仮説検定により予算制約を厳密に満たし、委譲率について有限サンプルの確率的保証を与えます。
  • 4つの安全性データセットでの評価では、CTDが不確実性ベースの手法を全ての予算水準で上回り、有害な過剰委譲を抑えつつ、入力の難しさに応じてラベルなしで予算配分を調整できることが示されています。