AutoCompress:効率的なトランスフォーマー圧縮のためのクリティカル層分離

arXiv cs.LG / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • AutoCompressは、経験的な観察(第0層が他の層に比べてタスクに重要な情報を極めて多く保持している)に基づくトランスフォーマー圧縮手法を提案しています。
  • 同手法のCritical Layer Isolation(CLI)では、第0層をフル次元のまま保護し、中間層を学習可能なボトルネックで圧縮し、最終層ではフル次元に復元します。
  • GPT-2 Medium(354.8Mパラメータ)に適用したCLI-GPT2は、WikiText-103で204.5のパープレキシティを143.8Mパラメータで達成し、2.47×の圧縮比と59.5%のパラメータ削減を実現しました。
  • アブレーション実験では、同規模の一様なボトルネックを用いたベースラインの性能が大きく劣る(571.8)ことが示され、モデル縮小そのものではなく第0層の保護/分離が主な性能要因であることが確認されています。
  • 再現や拡張のためのコードとチェックポイントは公開されています。

概要: 本稿では、自己圧縮(AutoCompress)というトランスフォーマー圧縮手法を提案します。これは、経験的な発見に動機づけられています。すなわち、小規模トランスフォーマーでは、レイヤー0がタスクにとって極めて重要な情報を不釣り合いなほど多く担っており、NTKに基づく重要度スコアが、他のすべてのレイヤーの最大値である0.054と比べて3.6となります――この差は60倍超です。これに基づき、Critical Layer Isolation(CLI)というアーキテクチャを提案します。このアーキテクチャは、レイヤー0を完全な次元のまま保護し、学習されたボトルネックによってすべての中間レイヤーを圧縮し、最終レイヤーで完全な次元へ復元します。GPT-2 Medium(354.8Mパラメータ)に適用したところ、CLI-GPT2は143.8MパラメータのみでWikiText-103に対して204.5のパープレキシティを達成しました。これは2.47倍の圧縮率および59.5%のパラメータ削減に相当します。重要なのは、アブレーション研究により、同程度のサイズの一様なボトルネック基準モデルでは、同一の学習条件のもとで得られるパープレキシティが571.8にとどまることが示された点です。これは、「単にモデルサイズを減らす」のではなく、「レイヤー0を保護する」というアーキテクチャ上の判断が性能の主要な要因であることを確認しています。コードおよびチェックポイントは公開されています。