BiLaLoRA(Bilevel Layer-Positioning LoRA)による実画像デヘイズ
arXiv cs.CV / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- CLIPのクロスモーダル機能を活用して現実画像デヘイズを潜在空間の意味的整合性問題として定式化する haze-to-clear テキスト指向損失を提案し、参照画像を必要としない無監督のクロスモーダル指導を提供します。
- BiLaLoRA(Bilevel Layer-positioning LoRA)を導入し、LoRAパラメータを同時に学習するとともに注入層を自動的に探索し、重要なネットワーク層のターゲット適応を可能にします。
- 本手法は、複数の実世界デヘイズのベンチマークにおいて最先端手法を上回る性能を示し、完全なファインチューニングを行わずに効果的な適応を実現します。
- 著者らは再現性と実用的適用のためにコードをGitHubで公開しています。
学習ベースの実画像デヘイズ手法は顕著な進歩を遂げている一方で、多様な実世界の霧状シーンへの適応には依然として課題がある。これらの課題は主に、ラベルなしデータに対する効果的な無監督メカニズムの不足と、完全なモデルファインチューニングの高コストに起因する。これらの課題に対処するため、CLIPのクロスモーダル機能を活用して実画像デヘイズを潜在空間における意味的整合性問題として再定式化し、参照画像を必要とせず明示的な無監督のクロスモーダルガイダンスを提供する haze-to-clear テキスト指向損失を提案する。さらに、BiLaLoRA(Bilevel Layer-positioning LoRA)戦略を導入し、LoRAパラメータを学習するとともに注入層を自動的に探索して、重要なネットワーク層のターゲット適応を実現する。本手法の広範な実験は、複数の実世界デヘイズベンチマークにおいて最先端手法に対して優越性を示しており、徹底したファインチューニングを伴わない効果的な適応を実証している。コードは再現性のために公開されている(https://github.com/YanZhang-zy/BiLaLoRA)。




