VLM向け画像圧縮のためのプロンプト誘導型前処理（Prompt-Guided Prefiltering）

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

画像をクラウドのVLMに渡す前提で、タスクに不要な細部を抑えて効率よく圧縮するための「プロンプト誘導の前処理（prompt-guided prefiltering）」を提案しています。
提案手法は、テキストプロンプトに対して重要な画像領域を特定し、重要情報は保持しつつ関係の薄い領域を平滑化することで圧縮効率を高めます。
codecに依存しないプラグアンドプレイ型モジュールであり、従来のエンコーダや学習ベースのエンコーダの前段に挿入して使えるとしています。
複数のVQAベンチマークで、平均ビットレートを25〜50%削減しながらタスク精度を維持できたと報告しています。
ソースコードが公開されており、VLM向け画像圧縮の実装検証や応用につなげやすい内容です。

要旨: 大規模ビジョン・言語モデル（VLM）の急速な進歩により、画像理解やVisual Question Answering（VQA）など、幅広い応用が可能になっています。クエリ画像はしばしばクラウドにアップロードされ、そこでVLMは通常ホストされるため、効率的な画像圧縮が極めて重要になります。しかし、従来の人間中心のコーデックは、この状況ではタスクに無関係な詳細を多く保持してしまうため、不適切です。既存のImage Coding for Machines（ICM）手法も、下流タスクが固定された集合であることを前提としており、目的が開放的に多様であるプロンプト駆動型VLMに適応できないため、限界があります。そこで本研究では、テキストプロンプトに最も関連する画像領域を特定し、それによって下流タスクへとつなげるための、軽量でプラグ・アンド・プレイ可能な、プロンプト誘導型プリフィルタリング・モジュールを提案します。このモジュールは、重要な詳細を保持しつつ、関連性の低い領域を平滑化することで、圧縮効率を向上させます。これはコーデックに依存せず、従来のエンコーダや学習済みエンコーダの前に適用できます。いくつかのVQAベンチマークに関する実験では、本アプローチはタスク精度を同等に保ちながら、平均で25〜50%のビットレート削減を達成することが示されました。ソースコードは https://github.com/bardia-az/pgp-vlm-compression で公開されています。