LLM推論における2次元の早期終了最適化

arXiv cs.AI / 2026/4/22

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、分類タスクにおいて層方向と文方向の早期終了を同時に調整するLLM推論の2次元（2D）戦略を提案しています。
入力を文ごとに段階的に処理しつつ、より深い層を段階的に有効化することで、層方向・文方向どちらか単独の最適化よりも大きい乗法的な計算削減を実現します。
4つの最先端LLM（3B〜8Bパラメータ）と3つの感情分類データセットでの実験では、より単純なタスクでレイヤー方向の最適な早期終了基準よりも追加で1.4〜2.3×の高速化が観測され、難しい多クラス問題では性能がなだらかに低下します。
この手法はモデルに依存せず、軽量な分類アダプタのみで導入でき、量子化やプルーニングのような他の効率化手法とも相補的に機能します。
収集される意味情報が入力構造に沿って予測可能に蓄積する場合に特に有効であり、感情分析以外の系列処理タスクへの適用可能性が示唆されています。

Abstract

大規模言語モデルにおける分類タスクのために、層ごとの早期終了と文ごとの早期終了を協調させる二次元（2D）の早期終了戦略を提案します。入力を文ずつ逐次処理しつつ、より深い層を段階的に活性化することで、提案手法は、いずれか一方の次元を独立に最適化した場合を上回る乗法的な計算削減を達成します。4つの最先端LLM（Llama 3.1、Llama 3.2、Gemma、Qwen；3B-8Bパラメータ）にまたがる3つの感情分類データセットでの実験評価により、バニラモデルにおける単純なタスクでの最適な層ごとの早期終了よりも追加で1.4--2.3

\times

の高速化が得られること、また複雑な多クラス問題では損失が緩やかであることを示します。微調整によりこの優位性は減少しますが、完全には消えません。このアプローチはモデルに依存せず、軽量な分類アダプタのみを必要とし、量子化やプルーニングといった補完的な効率化手法とは直交しています。我々の発見は、入力構造に従って意味情報が予測可能に蓄積される場合に2D早期終了戦略が特に優れることを示しており、感情分類以外のシーケンス処理タスクへの適用可能性が考えられます。