劣化ロバスト融合:任意の劣化シナリオにおけるマルチモーダル画像融合のための効率的な劣化認識拡散フレームワーク

arXiv cs.CV / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ノイズ、ぼけ、低解像度などの現実世界の劣化を受けた入力に対してマルチモーダル画像融合の性能を高めることを目的とした、「劣化ロバスト融合(Degradation-Robust Fusion)」という効率的な劣化認識拡散フレームワークを提案する。
  • 拡散手法を、明示的に拡散ノイズを予測するのではなく、暗黙的な除ノイズを用いることで適応する。モデルは拡散ノイズを直接推定する代わりに、融合画像を直接回帰し、限られたサンプリング手順で多様な劣化シナリオに対して柔軟に対応できる性能を支える。
  • 本手法には、サンプリング中に劣化の整合性と融合の制約の両方を強制する「共同観測モデル補正(joint observation-model correction)」メカニズムが含まれており、高い再構成精度を維持する。
  • 複数の融合タスクおよび劣化構成に対する実験の結果、提案アプローチは既存手法より優れていることが報告されており、特に複雑な劣化条件下でその優位性が顕著である。

要旨: ノイズ、ぼけ、低解像度のような複雑な劣化は、実世界の画像フュージョン(融合)タスクにおいて典型的な課題であり、既存手法の性能と実用性を制限しています。エンドツーエンドのニューラルネットワークに基づくアプローチは、一般に設計が容易で推論効率が高い一方、そのブラックボックス性により解釈可能性が限られます。拡散(ディフュージョン)ベースの手法は、有力な生成事前(ジェネレーティブ・プライア)とより構造化された推論プロセスを提供することで、この問題をある程度緩和します。しかし、それらは単一のドメインにおける目標分布を学習するように訓練されるのに対し、フュージョンには自然な「融合データ」が存在せず、複数の情報源の補完的な情報をモデリングする必要があるため、拡散をそのまま実際に適用するのは難しいのが現状です。これらの課題に対処するため、本論文では、任意の劣化シナリオ下での画像フュージョンのための、効率的な劣化認識(デグラデーション・アウェア)拡散フレームワークを提案します。具体的には、従来の拡散モデルが明示的にノイズを予測するのに対し、本手法では融合画像を直接回帰することで暗黙的な除ノイズを行います。これにより、複雑な劣化の下で、限られたステップ数で多様なフュージョンタスクに柔軟に適応できるようになります。さらに、サンプリング中に劣化制約とフュージョン制約を同時に課す、共同観測モデル(ジョイント・オブザベーション・モデル)補正メカニズムを設計し、高い再構成精度を保証します。多様なフュージョンタスクと劣化構成に関する実験により、提案手法が複雑な劣化シナリオにおいて優れていることが示されます。