意味的圧縮のための適応的トランスフォーム符号化

arXiv cs.CV / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、画像を人間向けに再構成するのではなく、下流の推論で使うためのコンパクトな機械向け表現（セマンティック埋め込み）を送ることに焦点を当てたビジョン向け圧縮を扱っている。
ガウス混合モデルの条件付きレート歪み関数に動機づけられた、意味的特徴（セマンティック・フィーチャ）圧縮のための適応的トランスフォーム符号化手法を提案する。
推定されたソースの成分に応じてモード依存の変換器と量子化器を選択し、多様な特徴分布に対してより効率的に符号化できるようにしている。
よく使われる視覚バックボーンや基盤モデルから得た特徴で評価したところ、本手法は最先端のニューラル圧縮法に対して上回る、または同等の性能を示しつつ、柔軟性と解釈可能性も保っている。

要旨: 視覚データ圧縮は、人間中心の復元から機械指向の表現符号化へと移行しつつあります。この設定では、画像はしばしばコンパクトな意味埋め込みへ写像され、その後に圧縮・送信されて、下流の推論に用いられます。本研究では、ガウス混合モデルの条件付きレート歪み関数に動機づけられた、意味特徴圧縮のための適応的なトランスフォーム符号化手法を提案します。この方式は、推定されたソース成分に応じて選択される、モード依存の変換器および量子化器を用いることで、不均質な特徴分布をより効率的に符号化できるようにします。広く利用されている視覚バックボーンや基盤モデルから得られた特徴に対する評価により、提案手法は、柔軟性と解釈可能性を維持しつつ、最先端のニューラル圧縮手法に対して上回るか、同等の性能を示すことが確認されました。