広告

TernaryLM:ネイティブな1.5ビット量子化と適応的な層ごとのスケーリングによる、メモリ効率の高い言語モデリング

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ネイティブな三値量子化 {-1, 0, +1} を用いてスクラッチから訓練された1.32億パラメータのトランスフォーマー「TernaryLM」を提案し、リソース制約下での大幅なメモリ削減を目的とする。
  • 後段の量子化を回避し、初期化時から量子化を意識した学習(quantization-aware training)を行う。ストレートスルー推定器と、言語モデリング品質を維持するための適応的な層ごとのスケーリング係数により実現する。
  • TinyStoriesでの実験では、検証パープレキシティがシード間で58.42 ± 0.17と安定した性能を示す。一方、下流タスクでの転移ではMRPCでF1 82.47%を達成し、はるかに少ない事前学習データにもかかわらずDistilBERTを上回る。
  • モデルは、FP32基線(498 MB vs 1,197 MB)に対して約2.4倍のメモリ削減を実現し、レイテンシも同等であることから、学術的な圧縮に留まらない実用的な効率性を示している。
  • 層ごとの分析では、中間層(L5–L9)が境界層(45–55%)よりも高い有効な三値スパース性(60–62%)に到達することが分かり、精度配分を一様にしないことを設計原理として示唆している。コードと訓練済みモデルはGitHubで公開されている。

Abstract

大規模言語モデル(LLM)は目覚ましい性能を発揮しますが、大量の計算リソースを必要とするため、エッジデバイスやリソースに制約のある環境への展開が困難になります。そこで我々は、132Mパラメータのトランスフォーマーを、三値量子化{-1, 0, +1}(log2(3) ~ 1.58-bitの有効精度)でネイティブに学習した TernaryLM を提案します。言語モデリング能力を損なうことなく、メモリを大幅に削減することができます。事前学習済みのフル精度モデルに対して量子化を適用するポストトレーニング量子化手法とは異なり、TernaryLM は、straight-through 推定器と適応的な層ごとのスケーリング係数を用いて、量子化を意識した表現をゼロから学習します。 実験の結果、(1) TinyStories における検証パープレキシティが 58.42、交差シードの標準偏差が +/- 0.17 PPL であることにより、安定した最適化が確認できました;(2) MRPC で F1 が 82.47% と非常に高く、55倍少ない事前学習データしか使用していながら DistilBERT を上回りました;(3) レイテンシが同等であるにもかかわらず、同一のアーキテクチャの FP32 モデル(1,197 MB)に対して 2.4x のメモリ削減(498 MB)を達成しました;そして (4) 三値制約による暗黙の正則化効果として、FP32 ベースラインにおける 3.51x に対し train/val 比が 1.05x となり、小規模コーパスでの過学習が抑えられることを示しています。 我々は、層ごとのスパース性解析を行い、中間のトランスフォーマー層(L5-L9)が境界層よりも高い 60-62% の量子化スパース性を達成している一方、境界層では 45-55% であることを明らかにしました。これは、不均一な精度割り当てに関する実行可能な設計原則を確立するものです。実装と学習済みモデルは https://github.com/1nisharg/TernaryLM-Memory-Efficient-Language-Modeling で公開しています。

広告