MF-QAT：エラスティック推論のためのマルチフォーマット量子化認識学習（Multi-Format Quantization-Aware Training）

arXiv cs.LG / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、単一の固定精度ではなく、複数の数値量子化フォーマットに対して精度を維持できるように1つのモデルを学習するマルチフォーマット量子化認識学習（MF-QAT）を提案する。
実験の結果、MF-QATは各ターゲット精度において単一フォーマットのQATと同等の性能を達成でき、さらに学習中に明示的に見ていない量子化フォーマットに対しても汎化可能であることが示される。
費用のかかる再学習なしでのデプロイを支援するため、高精度のアンカー表現を低いMXINTおよびMXFPフォーマットへ変換するSlice-and-Scale変換手順を導入する。
著者らは、推論時のパイプラインとして、MF-QATで一度だけ学習し、1つのアンカーチェックポイント（MXINT8/MXFP8）を保存することで、推論の途中で低精度フォーマットへ変換でき、追加の精度低下がほぼない、または全くないことを可能にする。
全体として、この研究は推論時に「エラスティック」な精度スケーリングを実現し、システムがハードウェア要件や実行時の制約に基づいてランタイムの数値フォーマットを選択できるようにする。

Abstract

量子化を意識した学習（QAT）は通常、単一の目標となる数値形式に対して行われますが、実運用の導入では、ハードウェア対応や実行時の制約に基づいて、推論時に数値精度を選択する必要があるのが一般的です。本研究では、複数形式に対応したQAT（multi-format QAT）を扱います。これは、単一のモデルを複数の量子化形式に対して頑健にするように学習するものです。検証の結果、複数形式QATは各目標精度において単一形式QATと同等の性能を達成できることが分かりました。これにより、学習中に見ていなかった形式であっても含め、異なる形式に対して全体として良好に動作する1つのモデルが得られます。実運用を可能にするために、再学習なしで高精度表現をより低い精度形式へ変換する、MXINTとMXFPの両方に対する「Slice-and-Scale（スライス・アンド・スケール）」変換手順を提案します。これを基に、次のようなパイプラインを導入します。すなわち、(i) 複数形式QATでモデルを学習し、(ii) 単一のアンカー形式のチェックポイント（MXINT8/MXFP8）を保存し、(iii) 実行時に低いMXINTまたはMXFP形式へオンザフライに変換できるようにして、精度の低下を「ほぼなし、または追加の精度劣化なし」に抑えます。これらの構成要素により、弾力的な精度スケーリングのための実用的な道筋が提供され、推論時に多様な導入ターゲット間でランタイム形式を選択できるようになります。