Abstract
大規模言語モデルにおける分類タスクのために、層ごとの早期終了と文ごとの早期終了を協調させる二次元(2D)の早期終了戦略を提案します。入力を文ずつ逐次処理しつつ、より深い層を段階的に活性化することで、提案手法は、いずれか一方の次元を独立に最適化した場合を上回る乗法的な計算削減を達成します。4つの最先端LLM(Llama 3.1、Llama 3.2、Gemma、Qwen;3B-8Bパラメータ)にまたがる3つの感情分類データセットでの実験評価により、バニラモデルにおける単純なタスクでの最適な層ごとの早期終了よりも追加で1.4--2.3\timesの高速化が得られること、また複雑な多クラス問題では損失が緩やかであることを示します。微調整によりこの優位性は減少しますが、完全には消えません。このアプローチはモデルに依存せず、軽量な分類アダプタのみを必要とし、量子化やプルーニングといった補完的な効率化手法とは直交しています。我々の発見は、入力構造に従って意味情報が予測可能に蓄積される場合に2D早期終了戦略が特に優れることを示しており、感情分類以外のシーケンス処理タスクへの適用可能性が考えられます。