EvaNet: より効率的で一貫した赤外・可視画像融合評価へ

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、一般的な画像融合の評価指標がしばしば他の視覚タスクから流用されており、その結果として測定品質が不十分になり、計算コストも重くなると主張している。
赤外と可視の各成分に融合画像を最初に分解し、その上でそれぞれの情報保存を評価する、統一された軽量な学習ベース評価フレームワーク「EvaNet」を提案する。
学習にはコントラスト学習を用い、さらに大規模言語モデルからの知覚シーン評価ガイダンスを組み込むことで、評価モデルを人間のような知覚により整合させる。
研究では、参照なしスコアと下流タスクの性能を通じて、融合指標と人間の視覚知覚との一致度を測る一貫性評価アプローチも提案する。
実験では、標準的な画像融合ベンチマークにおいて、効率が大幅に向上（最大で1,000倍高速化）し、かつ一貫性も高いことが報告されており、コードは一般公開を予定している。

概要: 画像融合研究における評価は不可欠ですが、既存の多くの指標は適切な適応なしに他の視覚タスクからそのまま流用されています。これらの伝統的な指標は、複雑な画像変換に基づくことが多いだけでなく、融合結果の真の品質を捉えられないばかりか、計算負荷も高いという問題があります。これらの課題に対処するため、画像融合に特化した統一的な評価フレームワークを提案します。中心となるのは、分割統治（divide-and-conquer）戦略に従って広く用いられている指標を効率よく近似する軽量ネットワークです。融合結果と元画像との類似度を直接評価する従来手法とは異なり、まず融合結果を赤外成分と可視成分に分解します。次に、評価モデルを用いて、これらの分離された成分における情報保存の度合いを測定し、融合評価プロセスを効果的に切り離します。訓練中は、コントラスト学習の戦略を取り入れ、大規模言語モデルが提供する知覚的なシーン評価によって評価モデルに情報を与えます。最後に、最初の一貫性（consistency）評価フレームワークを提案します。これは、独立した無参照（no-reference）スコアと下流タスクの性能の両方を客観的な参照として用い、画像融合指標と人間の視覚知覚との整合性を測定するものです。広範な実験により、学習ベースの評価パラダイムが、標準的な画像融合ベンチマークの幅広い範囲において、優れた効率（最大1,000倍高速）と、より高い一貫性の両方を実現することを示します。コードは https://github.com/AWCXV/EvaNet で公開予定です。