TTQ:活性化を意識した推論時量子化によるLLM推論の即時加速

arXiv cs.LG / 2026/3/23

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、再訓練を必要とせず、推論中にその場で大規模基盤モデルを圧縮する推論時量子化フレームワーク TTQ を提案します。
  • オンラインキャリブレーションを用いて、すべてのプロンプトおよび下流タスクに適応するアクティベーションを考慮した量子化を実現し、ドメインシフトの問題を低減します。
  • TTQ は、ランタイム時のアクティベーションを量子化することで推論を高速化し、最先端のベースラインと比較して性能を維持または向上させます。
  • 著者らは、TTQ が大規模モデルにおいて既存のアクティベーションベースおよびキャリブレーションベースの量子化手法を上回ることを示す実験を行っています。

要約:
膨大な基盤モデルの計算需要に対処するため、再訓練なしで活性化を意識した圧縮技術が導入されています。しかし、これらの手法は較正データに大きく依存するため、未知の下流タスクに対してドメインシフトの問題が生じる可能性があります。私たちは、この問題を解決するために、推論時にその場で大規模モデルを圧縮するテスト時量子化(TTQ)フレームワークを提案します。効率的なオンライン較正を用いることで、瞬時に活性化を意識した量子化は、下流タスクに関係なくすべてのプロンプトに適応し、推論速度の向上を実現します。いくつかの実験により、TTQ は最先端のベースラインを上回る量子化性能を発揮できることが示されています。