TinyNeRV:容量スケーリング、蒸留、低精度推論によるコンパクトなニューラル・ビデオ表現

arXiv cs.CV / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、リソース制約下での運用やリアルタイム展開を目的とした、非常にコンパクトなニューラル・ビデオ表現(NeRV)に関する体系的な研究としてTinyNeRVを提案する。
  • 2つの軽量な派生モデルであるNeRV-TおよびNeRV-T+を提示し、複数の動画データセットにおいて、容量をどれほど過激に削減しても再構成品質、計算量、デコードスループットがどのように変化するかを評価する。
  • 推論コストを増やすことなく忠実度を向上させるため、低容量モデルに対して周波数に応じたフォーカルな教師付き学習(focal supervision)を用いた知識蒸留を検討する。
  • 本研究では、ポストトレーニング量子化と量子化を考慮した学習(QAT)の両方によって、低精度推論時の頑健性も評価する。
  • 結果として、適切に設計された小型のNeRVアーキテクチャは、パラメータ数、計算コスト、メモリ使用量を大幅に削減しつつ、品質と効率のトレードオフを良好に維持できることが示される。公式実装はGitHubで公開されている。

要旨: 暗黙的なニューラル動画表現は、ニューラルネットワークのパラメータ内に動画シーケンス全体を符号化し、一定時間でフレームを復元できるようにします。動画のためのニューラル表現(NeRV)に関する最近の研究では、従来の動画コーデックにおける逐次デコード処理を回避しつつ、競争力のある復元性能が示されています。しかし、既存のほとんどの研究は中程度または高容量のモデルに焦点を当てており、制約のある環境で必要となる極めてコンパクトな構成に求められる挙動は十分に調べられていません。本論文では、効率的な展開を目的とした小型NeRVアーキテクチャの体系的な研究を示します。2つの軽量構成、NeRV-TおよびNeRV-T+を導入し、複数の動画データセットにわたって評価することで、過度な容量削減が復元品質、計算の複雑さ、そしてデコードスループットにどのように影響するかを分析します。アーキテクチャのスケーリングに加えて、本研究では、推論コストを増やさずにコンパクトモデルの性能を向上させる戦略を探究します。低容量ネットワークにおける復元の忠実度を高めるために、周波数を意識した焦点付き教師あり学習(知識蒸留)を検討します。さらに、数値精度を低下させた状況での小型モデルの頑健性を調べるために、事後学習量子化と量子化を意識した学習(QAT)の両方を通じて低精度推論の影響を検討します。実験結果は、注意深く設計された小型NeRVの各バリアントが、パラメータ数、計算コスト、メモリ要件を大幅に削減しつつ、良好な品質効率のトレードオフを達成し得ることを示しています。これらの知見は、コンパクトなニューラル動画表現における実用上の限界についての洞察を提供し、資源が限られたリアルタイム環境でNeRVスタイルのモデルを展開するための指針を与えるものです。公式実装は https: //github.com/HannanAkhtar/TinyNeRV-Implementation で利用可能です。