みなさんこんにちは、
私はディープラーニングモデルを作業していて、ある不思議なことに気づきました。
異なる精度を比較するとき:FP32(ベースライン)
FP16、INT8(事後学習量子化)
INT8のほうがFP16よりも推論精度が良くなっていて、これは予想していませんでした。
FP16はFP32により近く、したがってINT8よりも正確なはずだと思っていましたが、私の場合は実際にINT8のほうがうまく動作しています。
このようなことを見たことがある人はいますか? 推論でINT8がFP16を上回ることを説明できる要因は何でしょうか?
セットアップの詳細:
ONNX経由でエクスポート
FP16はそのまま使用/INT8は量子化によって使用
主要なアーキテクチャ変更はなし
[link] [comments]




