EmbBERT: メモリ2MB未満でのアテンション

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

EmbBERTは、約2MBというごく限られた総メモリで動作することを目的に設計された、極小サイズのトランスフォーマーベースの新しい超コンパクト言語モデルです。
アーキテクチャは、コンパクトな埋め込み層、簡略化されたフィードフォワードブロック、効率的なアテンション機構を組み合わせることで、極端なメモリ予算にもかかわらず競争力のある精度を維持します。
TinyNLPおよびGLUEでの実験により、EmbBERTは約10倍以上のメモリを使用する最先端モデルと同等の精度を達成し、さらに同程度のサイズに縮小したBERTやMAMBAの派生モデルよりも優れていることが示されています。
そのモデルは8-bit量子化に対しても頑健で（メモリを約781kBまで削減）、論文ではサブメガバイトから数十メガバイトにわたって設計がスケールすることが報告されています。
アブレーションスタディでは主要な構成要素と事前学習手順のすべてがそれぞれプラスに寄与していることが示されており、再現性のために著者はコード、スクリプト、チェックポイントを公開しています。

要旨: 注意機構に基づくTransformerアーキテクチャは、自然言語処理（NLP）に革命をもたらし、事実上あらゆるNLPタスクにおいて主要なブレークスルーを推進してきました。しかし、それらの大規模なメモリおよび計算要件は依然として、ウェアラブルやインターネット・オブ・シングス（IoT）ユニットのような超制約環境での導入を妨げています。これらの環境では利用可能なメモリがわずか数メガバイトに限られます。この課題に対処するため、私たちは極端な効率性のためにアーキテクチャ設計された小型言語モデル（TLM）であるEmbBERTを提案します。本モデルは、コンパクトな埋め込み層、合理化されたフィードフォワード・ブロック、そして効率的な注意機構を統合しており、これらが組み合わさることで、厳しいメモリ予算下での最適な性能を可能にします。極端なエッジ向けの再設計により、強く単純化されたTransformerアーキテクチャであっても、限られたリソース条件下で驚くほど有効であることを示します。EmbBERTは合計で2 MBのメモリのみを必要とし、 $mathbf{10\times}$ のメモリ予算を必要とする最先端（SotA）モデルと同等の精度性能を達成します。厳選されたTinyNLPベンチマークおよびGLUEスイートに対する大規模な実験により、EmbBERTがより大きなSotAモデルと同等の競争力のある精度を達成し、さらに同程度のサイズの縮小版BERTおよびMAMBAを一貫して上回ることが確認されます。さらに、本モデルが8-bit量子化に対して頑健であることも示します。これによりメモリ使用量はさらに781 kBまで削減されます。また、EmbBERTアーキテクチャがサブメガバイトから数十メガバイトの範囲でスケール可能であることも示します。最後に、すべての構成要素および事前学習手順がもたらす正の寄与を示すアブレーションスタディを実施します。再現性を確保するため、すべてのコード、スクリプト、およびチェックポイントは公開されています: https://github.com/RiccardoBravin/tiny-LLM.

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

EmbBERT: メモリ2MB未満でのアテンション

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer