何をどこで適応するか:相乗的アダプタによる機械視覚向け圧縮のための構造‐意味協調チューニング
arXiv cs.CV / 2026/4/14
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、機械視覚向けに事前学習済み画像コーデックをパラメータ効率よく微調整する手法を研究し、エントロピーモデルの統計的意味論を適応させることは比較的未検討である点を指摘する。
- 単にエントロピーモデルにアダプタを挿入するだけでは性能が低下し得ること、またアダプタは圧縮パイプラインのどこに配置するかと協調させる必要があることを見出す。
- 提案するStructure-Semantics Co-Tuning(S2-CoT)フレームワークでは、相乗的な2つのアダプタを用いる。高忠実な空間/周波数表現を保持するための、エンコーダ‐デコーダ側のSFAと、より良い確率符号化のためにチャネル文脈を洗練するエントロピーモデル側のSCAである。
- SFAとSCAの共同最適化により、性能低下となり得るものを相乗的な向上へと変換し、4つのベースとなるコーデックで最先端の結果を達成する。さらに、学習可能パラメータはごく一部のみで済み、フルの微調整と非常に近い性能を実現する。




