モバイルNPU向け高性能な実画像デノイズ:知識蒸留によるReal Image Denoising
arXiv cs.CV / 2026/5/6
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 本論文は、モバイルNPU上での実画像デノイズに向けて、演算子の互換性問題やメモリアクセスのオーバーヘッドを解決するNPU対応のハードウェア・アルゴリズム協調設計を提案する。
- 高容量の教師モデルから軽量な学生モデル(LiteDenoiseNet)へ知識蒸留を行い、SoCのタイル状メモリ構造を活かすよう学生モデルを最適化する。
- NPUネイティブなプリミティブ(3x3畳み込み、ReLU、最近傍アップサンプリング等)にネットワークを限定し、1024x1024までの段階的なコンテキスト拡張を適用することで、フル解像度で高いPSNR/SSIMを達成する。
- 標準化されたFull HDプロトコルでの実行時間は、MediaTek Dimensity 9500で34.0 ms、Qualcomm Snapdragon 8 Eliteで46.1 msとなり、さらに「Inference Inversion」効果として、NPU互換の演算に厳密に従うことで統合モバイルGPUより最大3.88倍速い専用NPU実行が可能になる。
- 学習済み学生モデルは1.96Mパラメータで、alpha=0.9の高α知識蒸留により教師の復元品質の99.8%を回復し、21.2倍のパラメータ削減とPSNRギャップ0.05 dBへの縮小を実現する。学習統計とモデルはNN Datasetとして公開されている。




