要旨:近年、学習ベースの水中画像強調(UIE)技術は急速に進化してきた。しかし、高品質に強調された出力と自然画像との間の分布のずれは、下流の視覚タスクの意味的手掛かりの抽出を妨げ、既存の強調モデルの適応性を制限する可能性がある。この課題に対処するため、本研究は Vision-Language Models(VLMs)を活用して UIE モデルに意味情報に敏感な能力を付与する新しい学習メカニズムを提案する。具体的には、私たちの戦略はまず、劣化した画像から VLM を用いて主要オブジェクトのテキスト記述を生成する。次に、テキストと画像の整列モデルがこれらの関連する記述を再び画像にマッピングし、空間的意味ガイダンスマップを作成する。このマップは、デュアル・ガイダンス機構を通じて UIE ネットワークを導き、クロスアテンションと明示的なアライメント損失を組み合わせる。これにより、画像再構成の際にネットワークは意味情報に敏感な領域へ回復力を集中させ、全体として一様な改善を追求するのではなく、主要オブジェクトの特徴を忠実に復元することを保証する。実験は、私たちの戦略を異なる UIE ベースラインに適用した場合、知覚品質指標のパフォーマンスを大幅に向上させるとともに、検出とセグメンテーションタスクでのパフォーマンスも向上させ、その有効性と適応性を検証する。
VLMを活用した意味論的感度を備えた水中画像強化
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、水中画像強化(UIE)における高品質に強化された水中画像と自然画像との分布シフトが生じ、下流の視覚タスクにおけるセマンティック手掛かりの抽出を妨げる問題に対処する。
- 劣化した画像から主要オブジェクトのテキスト説明を生成するためにVLM(視覚と言語モデル)を用い、これらの説明を画像上に再配置するテキスト-画像整合モデルを組み合わせて、空間的意味ガイダンスマップを作成する学習メカニズムを提案する。
- この意味ガイダンスマップは、クロスアテンションと明示的な整合損失を統合したデュアルガイダンス機構を介してUIEネットワークを導き、意味的に重要な領域に復元を集中させる。
- 実験では、この戦略をさまざまなUIEベースラインに適用することで、知覚品質指標を大幅に向上させ、検出およびセグメンテーションタスクの性能を改善することを示しており、モデル間での適応性を示している。


