クラッシュしやすい階層型探索空間における制約付きMLデプロイメント最適化のための実行可能領域優先探索

arXiv cs.LG / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、厳しい本番運用制約下でのMLデプロイメント最適化を、クラッシュやメモリ超過、レイテンシ違反を引き起こし得る多数の無効構成を含む階層型の混合変数探索問題として扱うことを目的とする。
  • 妥当な領域が希少な「敵対的な」デプロイ環境では、TPEや制約付きベイズ最適化などの標準的なブラックボックス手法が、小さな評価予算の多くを不可能な試行や情報の少ない試行に費やしてしまうと指摘する。
  • 著者らはThermal Budget Annealing(TBA)として、TPEをウォームスタートする前に実行可能領域を明示的に地図化する「実行可能領域優先」の探索手法を提案する。
  • TBAは、早期に明らかに不可能な評価を中止する試行タイムアウトと、失敗が繰り返されたカテゴリ部分空間を一時的に抑制するサブスペース・ブラックリスティングにより、攻撃的なハードウェア環境でも頑健性を高める。
  • さらに階層構造、隠れたクラッシュ領域、ハード制約、不均一な評価コストを備えたDeployBenchベンチマークを導入し、合成ベンチと実GPUデプロイ(複数のGPUターゲット)で、発見性能の向上と無駄な予算の削減を示している。

Abstract

生産環境の制約下で機械学習モデルをデプロイするには、モデルファミリ、量子化方式、ランタイムバックエンド、提供(サービング)設定に対して同時最適化を行う必要があります。これにより、多くの構成が無効となる階層的な混合変数の探索空間が生じます。評価はクラッシュしたり、メモリ上限を超えたり、レイテンシ制約に違反したりし得ます。Tree-structured Parzen Estimators(TPE)などの標準的なブラックボックス最適化手法や、制約付きベイズ最適化は、有効な構成が多い場合に効果的ですが、敵対的なデプロイメント空間では、有効性のない、あるいは有益でない試行に小さな評価予算の大きな割合を費やしてしまう可能性があります。本論文はこの状況を調査し、「最適化を、明示的な探索段階と、その後にモデルに導かれた活用(エクスプロイト)段階に分解すべきか」という問いを扱います。われわれは、ウォームスタート前に有効で実行可能な領域を写像する、実行可能性を優先する探索手順である Thermal Budget Annealing(TBA)を提案します。この方法には、敵対的なハードウェアに対する2つの頑健性メカニズムが含まれます。すなわち、明確に実行不可能な評価を早期に中断する試行時間のタイムアウト、そして、繰り返し失敗した後にカテゴリ(離散)サブ空間を一時的に抑制するサブスペースのブラックリスティングです。また、階層構造、隠れたクラッシュゾーン、厳しい制約、さらに評価コストが等しくないことを特徴とする、デプロイメント最適化のためのベンチマークスイート DeployBench も導入します。合成ベンチマークおよび、5つの事前学習済み視覚モデルを5つのGPUターゲット(NVIDIA H100、A100、RTX 5080、L4、T4)上で実デプロイした評価では、提案するハイブリッド手法が、厳しい制約下でのモデルファミリ発見を改善しつつ、コールドスタートTPEに比べて無駄にする予算を削減します。