BWTA:アルゴリズム・ハードウェア協調設計による、正確で効率的なバイナライズド・トランスフォーマー

arXiv cs.LG / 2026/4/7

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、BWTA(Binary Weights & Ternary Activations)という、バイナライズ/超低ビットのトランスフォーマー量子化手法を提案する。ゼロ点歪みを低減し、極めて低いビット幅においても精度をより良く保持する。
  • 学習の安定性と高速収束のために、Smooth Multi-Stage Quantizationを導入する。レベルごとの段階的劣化(levelwise degradation)と、マグニチュード整合のためのプロジェクション係数を組み合わせる。
  • 推論では、著者らはBWTA MatMul用の専用CUDAカーネルを設計し、効率的なビットパッキングとバイナリ/テナリー実装により、トランスフォーマーの各種アーキテクチャにおける線形演算および注意(attention)演算の両方を対象とする。
  • 報告されている結果では、BERTはほぼフル精度相当の性能を示し(GLUEの低下は小さい)、LLMではパープレキシティ/精度が競争力を持ちながら、速度面では大きな高速化(例:FP16に対してカーネルレベルで16〜24×)と、エンドツーエンドのプリフェッチ(prefill)スループットの向上が得られている。
  • 全体として、本研究は、大きな品質低下を伴わずに、低レイテンシな超低ビット・トランスフォーマー推論を実現するためのアルゴリズム・ハードウェア協調設計を示している。