AI Navigate

ARCHE: ハイパープライオリティと励起を用いた自己回帰残差圧縮

arXiv cs.CV / 2026/3/12

💬 オピニオンModels & Research

要点

  • ARCHEは、階層的・空間的・チャンネルの事前情報を1つの確率モデルに統合することで、モデリング精度と計算効率のバランスを取るエンドツーエンドの学習済み画像圧縮フレームワークです。
  • 最先端のレート歪み性能を達成し、BD-RateをBalleらの手法と比較して約48%、Minnen & Singhのチャンネルワイズ自己回帰モデルと比較して約30%、Kodakベンチマーク上のVVC Intraコーデックに対して約5%低減します。
  • このアプローチはリカレントまたはトランスフォーマー系の成分を回避し、適応的特徴再調整と残差の精練を用い、パラメータ95M、画像あたり約222msで実用展開を支えます。
  • 低ビットレートでの視覚比較は、よりシャープなテクスチャと色忠実度の向上を示し、効率的な畳み込み設計による効果的なエントロピーモデリングを示しています。

要旨:最近の学習ベースの画像圧縮の進展は、エンドツーエンドの最適化が、コンパクトな潜在表現と確率的エントロピーモデルを共同で学習することによって、伝統的なコーデックを実質的に上回ることができることを示しています。しかし、多くの既存アプローチは、計算コストの増大と並列性の制限を犠牲にして高いレート歪み効率を達成します。本論文は、ARCHE - ハイパープライオリティと励起を用いた自己回帰残差圧縮を提案します。ARCHEは、モデリング精度と計算効率のバランスを取るエンドツーエンドの学習済み画像圧縮フレームワークです。提案されたアーキテクチャは、階層的・空間的・チャネルベースの事前情報を単一の確率的枠組みに統合し、画像の潜在表現におけるグローバルな依存と局所的な依存の両方を捉えつつ、適応的な特徴再校正と残差の精練を用いて潜在表現の品質を高めます。リカレントまたはトランスフォーマーベースの構成に依存せず、ARCHEは最先端のレート歪み効率を達成します。BD-RateをBalleらの一般的なベンチマークモデルに対して約48%低減、Minnen & Singhのチャンネルワイズ自己回帰モデルに対して約30%低減、Kodakベンチマークデータセット上のVVC Intraコーデックに対して約5%低減します。フレームワークは95Mパラメータ、画像あたりの実行時間222msで計算効率を維持します。視覚的比較は、特に低ビットレートで、よりシャープなテクスチャと色忠実度の改善を確認させ、実用的な展開に適した効率的な畳み込み設計を通じて正確なエントロピーモデリングが達成できることを示しています。