LRConv-NeRV: 効率的なニューラル動画圧縮のための低秩畳み込み
arXiv cs.CV / 2026/3/20
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- LRConv-NeRVはNeRVデコーダの選択された密結合の3x3畳み込みを、構造化された低秩分離畳み込みへ置換し、エンドツーエンドで訓練され、品質と効率のトレードオフを制御可能にします。
- 低秩分離畳み込みを最終デコーダ段階のみに適用すると、デコーダGFLOPsを68%削減(201.9から64.9へ)、モデルサイズは約9.3%小さくなり、品質損失はほとんどなく、ビットレートは約9.2%削減されます。
- INT8後処理量子化は密結合ベースラインに近い再構成品質を維持しますが、早期段階の過度な因子化は品質を劣化させる可能性があります。
- このアプローチは時間的一貫性を保持し、低リソース環境における効率的なニューラル動画デコードの実用的なアーキテクチャ代替としてLRConv-NeRVを提示します。
要旨: Neural Representations for Videos (NeRV) はニューラルネットワークのパラメータ内に全動画シーケンスをエンコードし、従来のビデオコーデックに代わる新しいパラダイムを提供します。 しかし、NeRV の畳み込みデコーダは計算コストが高く、メモリ集約的であり、リソース制約のある環境での展開を制限します。 本論文は LRConv-NeRV を提案します。これは、デコーダアーキテクチャ内でエンドツーエンドに訓練される、選択された密結合の3x3畳み込み層を構造化された低ランクの分離畳み込みに置換する効率的な NeRV の変種です。 最大のデコーダ段階から初期段階へと低ランク因子分解を段階的に適用することにより、LRConv-NeRV は再構成品質と効率の間で制御可能なトレードオフを可能にします。 広範な実験は、最終デコーダステージのみに LRConv を適用することにより、デコーダの複雑さを 68% 減らし、201.9 GFLOPs から 64.9 GFLOPs に、またモデルサイズを 9.3% 減らす一方、品質の損失はごくわずかで、ビットレートの約 9.2% 減少を達成することを示しています。 INT8 ポストトレーニング量子化の下では、LRConv-NeRV は密な NeRV ベースラインに近い再構成品質を維持しますが、初期デコーダ段階のより積極的な因子分解は品質の不均衡な低下につながります。 レイヤー整列設定下の既存研究と比較して、LRConv-NeRV は効率と品質のトレードオフをより有利に達成し、PSNR/MS-SSIM の保持と改善された時間的安定性を維持しつつ、顕著な GFLOPs とパラメータの削減を提供します。 LPIPS を用いた時間的フリッカー分析は、提案された解法が NeRV ベースラインに近い時間的一貫性を保持することをさらに示しており、提案手法は低精度およびリソース制約下での効率的なニューラル動画デコードの潜在的なアーキテクチャ代替として LRConv-NeRV を確立します。