LEAP:効率的なトランスフォーマー推論のための層ごとの出口(Early Exit)を意識した事前学習

arXiv cs.LG / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、トランスフォーマーの効率化手法である層整合型蒸留と収束ベースの早期終了(early exit)が、標準的な運用条件のもとで体系的に両立できず、蒸留モデルではearly exitが無効化されることを示しています。
  • その解決として、LEAP(Layer-wise Exit-Aware Pretraining)を提案し、アーキテクチャ変更なしで蒸留とearly exitの挙動を両立するための補助的な学習制約を追加します。
  • 実験では、LEAP-MiniLMがNVIDIA L4(バッチ=1)で1.61×の実測ウォールクロックスピードアップを達成し、レイヤ7までに91.9%のサンプルが早期終了する一方で、標準蒸留モデルでは有効なスピードアップが得られないことが示されました。
  • STS-B(文の類似)とBEIR(検索)で検証し、レイテンシ測定や意思決定の閾値、デプロイ判断基準などの実務的なガイダンスも提示しています。