TTQ：活性化を意識した推論時量子化によるLLM推論の即時加速

arXiv cs.LG / 2026/3/23

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

本論文は、再訓練を必要とせず、推論中にその場で大規模基盤モデルを圧縮する推論時量子化フレームワーク TTQ を提案します。
オンラインキャリブレーションを用いて、すべてのプロンプトおよび下流タスクに適応するアクティベーションを考慮した量子化を実現し、ドメインシフトの問題を低減します。
TTQ は、ランタイム時のアクティベーションを量子化することで推論を高速化し、最先端のベースラインと比較して性能を維持または向上させます。
著者らは、TTQ が大規模モデルにおいて既存のアクティベーションベースおよびキャリブレーションベースの量子化手法を上回ることを示す実験を行っています。

要約:
膨大な基盤モデルの計算需要に対処するため、再訓練なしで活性化を意識した圧縮技術が導入されています。しかし、これらの手法は較正データに大きく依存するため、未知の下流タスクに対してドメインシフトの問題が生じる可能性があります。私たちは、この問題を解決するために、推論時にその場で大規模モデルを圧縮するテスト時量子化（TTQ）フレームワークを提案します。効率的なオンライン較正を用いることで、瞬時に活性化を意識した量子化は、下流タスクに関係なくすべてのプロンプトに適応し、推論速度の向上を実現します。いくつかの実験により、TTQ は最先端のベースラインを上回る量子化性能を発揮できることが示されています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

日経XTECH

TTQ：活性化を意識した推論時量子化によるLLM推論の即時加速

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

文字起こしだけじゃない、要約から資料まで作る「AIボイスレコーダー」

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Gmailで返信を自動作成、「Google AI Plus」で驚異の時短術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer