LEAP:効率的なトランスフォーマー推論のための層ごとの出口(Early Exit)を意識した事前学習
arXiv cs.LG / 2026/5/5
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- 本論文は、トランスフォーマーの効率化手法である層整合型蒸留と収束ベースの早期終了(early exit)が、標準的な運用条件のもとで体系的に両立できず、蒸留モデルではearly exitが無効化されることを示しています。
- その解決として、LEAP(Layer-wise Exit-Aware Pretraining)を提案し、アーキテクチャ変更なしで蒸留とearly exitの挙動を両立するための補助的な学習制約を追加します。
- 実験では、LEAP-MiniLMがNVIDIA L4(バッチ=1)で1.61×の実測ウォールクロックスピードアップを達成し、レイヤ7までに91.9%のサンプルが早期終了する一方で、標準蒸留モデルでは有効なスピードアップが得られないことが示されました。
- STS-B(文の類似)とBEIR(検索)で検証し、レイテンシ測定や意思決定の閾値、デプロイ判断基準などの実務的なガイダンスも提示しています。




