EmbBERT: メモリ2MB未満でのアテンション

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • EmbBERTは、約2MBというごく限られた総メモリで動作することを目的に設計された、極小サイズのトランスフォーマーベースの新しい超コンパクト言語モデルです。
  • アーキテクチャは、コンパクトな埋め込み層、簡略化されたフィードフォワードブロック、効率的なアテンション機構を組み合わせることで、極端なメモリ予算にもかかわらず競争力のある精度を維持します。
  • TinyNLPおよびGLUEでの実験により、EmbBERTは約10倍以上のメモリを使用する最先端モデルと同等の精度を達成し、さらに同程度のサイズに縮小したBERTやMAMBAの派生モデルよりも優れていることが示されています。
  • そのモデルは8-bit量子化に対しても頑健で(メモリを約781kBまで削減)、論文ではサブメガバイトから数十メガバイトにわたって設計がスケールすることが報告されています。
  • アブレーションスタディでは主要な構成要素と事前学習手順のすべてがそれぞれプラスに寄与していることが示されており、再現性のために著者はコード、スクリプト、チェックポイントを公開しています。

要旨: 注意機構に基づくTransformerアーキテクチャは、自然言語処理(NLP)に革命をもたらし、事実上あらゆるNLPタスクにおいて主要なブレークスルーを推進してきました。しかし、それらの大規模なメモリおよび計算要件は依然として、ウェアラブルやインターネット・オブ・シングス(IoT)ユニットのような超制約環境での導入を妨げています。これらの環境では利用可能なメモリがわずか数メガバイトに限られます。この課題に対処するため、私たちは極端な効率性のためにアーキテクチャ設計された小型言語モデル(TLM)であるEmbBERTを提案します。本モデルは、コンパクトな埋め込み層、合理化されたフィードフォワード・ブロック、そして効率的な注意機構を統合しており、これらが組み合わさることで、厳しいメモリ予算下での最適な性能を可能にします。極端なエッジ向けの再設計により、強く単純化されたTransformerアーキテクチャであっても、限られたリソース条件下で驚くほど有効であることを示します。EmbBERTは合計で2 MBのメモリのみを必要とし、mathbf{10\times}のメモリ予算を必要とする最先端(SotA)モデルと同等の精度性能を達成します。厳選されたTinyNLPベンチマークおよびGLUEスイートに対する大規模な実験により、EmbBERTがより大きなSotAモデルと同等の競争力のある精度を達成し、さらに同程度のサイズの縮小版BERTおよびMAMBAを一貫して上回ることが確認されます。さらに、本モデルが8-bit量子化に対して頑健であることも示します。これによりメモリ使用量はさらに781 kBまで削減されます。また、EmbBERTアーキテクチャがサブメガバイトから数十メガバイトの範囲でスケール可能であることも示します。最後に、すべての構成要素および事前学習手順がもたらす正の寄与を示すアブレーションスタディを実施します。再現性を確保するため、すべてのコード、スクリプト、およびチェックポイントは公開されています: https://github.com/RiccardoBravin/tiny-LLM.