MF-QAT:エラスティック推論のためのマルチフォーマット量子化認識学習(Multi-Format Quantization-Aware Training)
arXiv cs.LG / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、単一の固定精度ではなく、複数の数値量子化フォーマットに対して精度を維持できるように1つのモデルを学習するマルチフォーマット量子化認識学習(MF-QAT)を提案する。
- 実験の結果、MF-QATは各ターゲット精度において単一フォーマットのQATと同等の性能を達成でき、さらに学習中に明示的に見ていない量子化フォーマットに対しても汎化可能であることが示される。
- 費用のかかる再学習なしでのデプロイを支援するため、高精度のアンカー表現を低いMXINTおよびMXFPフォーマットへ変換するSlice-and-Scale変換手順を導入する。
- 著者らは、推論時のパイプラインとして、MF-QATで一度だけ学習し、1つのアンカーチェックポイント(MXINT8/MXFP8)を保存することで、推論の途中で低精度フォーマットへ変換でき、追加の精度低下がほぼない、または全くないことを可能にする。
- 全体として、この研究は推論時に「エラスティック」な精度スケーリングを実現し、システムがハードウェア要件や実行時の制約に基づいてランタイムの数値フォーマットを選択できるようにする。




