TernaryLM:ネイティブな1.5ビット量子化と適応的な層ごとのスケーリングによる、メモリ効率の高い言語モデリング
arXiv cs.CL / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ネイティブな三値量子化 {-1, 0, +1} を用いてスクラッチから訓練された1.32億パラメータのトランスフォーマー「TernaryLM」を提案し、リソース制約下での大幅なメモリ削減を目的とする。
- 後段の量子化を回避し、初期化時から量子化を意識した学習(quantization-aware training)を行う。ストレートスルー推定器と、言語モデリング品質を維持するための適応的な層ごとのスケーリング係数により実現する。
- TinyStoriesでの実験では、検証パープレキシティがシード間で58.42 ± 0.17と安定した性能を示す。一方、下流タスクでの転移ではMRPCでF1 82.47%を達成し、はるかに少ない事前学習データにもかかわらずDistilBERTを上回る。
- モデルは、FP32基線(498 MB vs 1,197 MB)に対して約2.4倍のメモリ削減を実現し、レイテンシも同等であることから、学術的な圧縮に留まらない実用的な効率性を示している。
- 層ごとの分析では、中間層(L5–L9)が境界層(45–55%)よりも高い有効な三値スパース性(60–62%)に到達することが分かり、精度配分を一様にしないことを設計原理として示唆している。コードと訓練済みモデルはGitHubで公開されている。



