独自コモン分解を用いた結合辞書アンフォールディングネットワークと勾配適応フィデリティによる転移可能なマルチソース融合

arXiv cs.CV / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、リソース制約のあるエッジデバイスでの利用を見据えた、軽量なCDNet(Combined Dictionary Unfolding Network)によるマルチソース画像融合を提案している。
  • 既存の多くの深層アンフォールディング手法がモダリティごとに別々に特徴を更新する交互最小化に基づくのに対し、CDNetは結合辞書学習の「独自・共通分解」事前分布を構造的に制約した共同アンフォールディングへと翻訳している。
  • CDNetのCDBlockはブロックスパースな相互作用トポロジを用い、共通表現とモダリティ固有表現をモデル由来で同時に更新することで、計算量とメモリ負荷を抑えつつ学習効率を高めている。
  • 教師となる正解画像なしでの教師なし学習を可能にするために、「高周波・低周波の画像フィデリティ損失」をコンパクトに設計している。
  • 4つの融合タスク(多重露光、赤外・可視、医療、赤外・可視のセマンティックセグメンテーション)で評価した結果、競争力またはそれ以上の性能が示され、特にPSNRでTNOが1.23 dB、RoadSceneが1.59 dB(2番手比)の向上が報告されている。

Abstract

深層アンフォールディング(Deep Unfolding)ネットワークに基づく手法は、モデル駆動型の反復最適化とデータ駆動型の深層学習を組み合わせることで、複数ソースの画像融合に対する効果的な解決策として登場してきました。 しかし、既存の深層アンフォールディング画像融合手法の多くは交互最小化(alternating minimization)に基づいており、異なるモダリティの特徴を別々に更新します。この設計は計算量とメモリのオーバーヘッドを大きくし、リソース制約のあるエッジデバイスへの展開を制限します。 この問題に対処するために、本研究では複数ソース画像融合のための軽量なCombined Dictionary Unfolding NetworkであるCDNetを提案します。新しい疎(sparse)符号化の事前(prior)を導入したり、既存の融合ネットワークを経験的に圧縮したりするのではなく、CDNetは、結合辞書学習(coupled dictionary learning)の固有な—共通(unique-common)分解の事前を、構造的に制約された共同アンフォールディング(joint unfolding)アーキテクチャへと変換します。その結果得られるCDBlockは、ブロックスパースな相互作用トポロジに従い、共通表現とモダリティ固有表現に対してモデル由来の共同更新を行うことで、特徴学習を効率化し、処理効率を向上させます。さらに、真値画像(ground-truth images)なしで教師なし学習を行うための、コンパクトな高周波・低周波(High- and Low-frequency)画像忠実度(Image Fidelity)損失も設計します。 4つのタスクでCDNetを評価します。具体的には、多重露光画像融合、赤外と可視の画像融合、医用画像融合、意味的セグメンテーションのための赤外と可視の画像融合です。 実験結果は、CDNetが高効率で競争力のある、あるいは優れた融合性能を達成することを示しています。 赤外と可視の画像融合においては、CDNetはTNOデータセットで6つの指標のうち4つ、RoadSceneデータセットで6つの指標のうち5つで、競合手法を上回ります。 特に、TNOおよびRoadSceneにおけるPSNRで、それぞれ2番目の最良手法を1.23 dBおよび1.59 dB上回ります。