モバイルNPU向け高性能な実画像デノイズ：知識蒸留によるReal Image Denoising

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

本論文は、モバイルNPU上での実画像デノイズに向けて、演算子の互換性問題やメモリアクセスのオーバーヘッドを解決するNPU対応のハードウェア・アルゴリズム協調設計を提案する。
高容量の教師モデルから軽量な学生モデル（LiteDenoiseNet）へ知識蒸留を行い、SoCのタイル状メモリ構造を活かすよう学生モデルを最適化する。
NPUネイティブなプリミティブ（3x3畳み込み、ReLU、最近傍アップサンプリング等）にネットワークを限定し、1024x1024までの段階的なコンテキスト拡張を適用することで、フル解像度で高いPSNR/SSIMを達成する。
標準化されたFull HDプロトコルでの実行時間は、MediaTek Dimensity 9500で34.0 ms、Qualcomm Snapdragon 8 Eliteで46.1 msとなり、さらに「Inference Inversion」効果として、NPU互換の演算に厳密に従うことで統合モバイルGPUより最大3.88倍速い専用NPU実行が可能になる。
学習済み学生モデルは1.96Mパラメータで、alpha=0.9の高α知識蒸留により教師の復元品質の99.8%を回復し、21.2倍のパラメータ削減とPSNRギャップ0.05 dBへの縮小を実現する。学習統計とモデルはNN Datasetとして公開されている。