OSC: チャネル次元における外れ値分離によるハードウェア効率の良いW4A4量子化

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、4ビットLLM推論における活性(activation)の外れ値がランダムに分布するのではなく、トークンにまたがって持続するクラスタリングとして現れ、トークン間で一貫して固定されたチャネルを占有することを分析する。
  • 外れ値を抑制しつつ大部分の計算は低精度のまま維持することを目的として、OSC(Outlier Separation in Channel dimension:チャネル次元における外れ値分離)を提案する。OSCはオフラインでのチャネル検出と、オンラインでのデュアルパス推論を組み合わせた手法である。
  • OSCはメインパスで4ビットGEMMを実行し、識別された外れ値チャネルには16ビットの分岐(branch)を用いる。さらに、構造化されたサブテンソル抽出により疎な外れ値チャネルをコンパクトな密テンソルへ集約して、効率の高い高スループットGEMMを実現する。
  • 外れ値のクラスタリングが弱い場合(特にW2入力)には、精度を維持するためにフォールバックとしてFP8を用いる。
  • Qwen3-8BおよびQwen3-30Bでの実験では、平均精度低下がそれぞれ2.19点および1.12点にとどまり、また最新のアクセラレータにおいてW8A8 GEMM基準に対してハードウェアフレンドリーなピーク速度向上が1.78倍であることを示す。