低レベル視覚におけるグローバルフォトメトリックアラインメントについて

arXiv cs.CV / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 低レベル視覚の教師あり学習では、画素ごとの損失が参照と対になった学習データのフォトメトリック(明るさ/色/ホワイトバランス等)不一致により最適化の病理を引き起こし、復元内容の学習が阻害されることを問題として提示しています。
  • 解析により、(最小二乗分解の下で)予測とターゲットの残差はフォトメトリック成分と構造成分の直交性を持ち、さらにフォトメトリック密成分が勾配エネルギーを支配するため、既存の損失設計が不一致に引きずられる構図を示しています。
  • これを受けて、不要なフォトメトリック差を閉形式のアフィン色アラインメントで割り引きつつ復元に関わる学習信号は保持する「Photometric Alignment Loss (PAL)」を提案しています。
  • PALは共分散統計と小さな行列の反転のみで実装可能でオーバーヘッドが小さく、6タスク・16データセット・16アーキテクチャで一貫して指標と汎化が改善されたと報告しています。

概要: 教師ありの低レベル視覚モデルは、対応する参照に対するピクセル単位の損失に依存しています。しかし、対応付けられた学習データセットには、ペアごとの測光的(フォトメトリック)な不一致が存在します。たとえば、異なる画像ペアでは、異なる全体的な明るさ、色、あるいはホワイトバランスの写像が必要になります。この不一致は、タスク固有の測光的伝達(例: 低照度の強調)を通じて、または意図しない取得の変動(例: 脱雨)を通じて入り込み、いずれの場合でも最適化の病理を引き起こします。標準的な再構成損失は、競合するペアごとの測光目標に対して不釣り合いに大きな勾配予算を割り当ててしまい、その結果、内容の復元が押しのけられます。本論文では、この問題を調査し、最小二乗分解のもとで、予測対象残差の測光成分と構造成分が直交すること、さらに空間的に密な測光成分が勾配エネルギーを支配することを証明します。この分析に動機づけられ、Photometric Alignment Loss(PAL)を提案します。PALは、閉形式のアフィン(線形+切片)による色整合を用いることで、復元に関係する監督を保持しつつ、不要な測光的な不一致を柔軟に割り引く監督目的です。必要なのは共分散統計と、小さな行列の反転のみで、オーバーヘッドは無視できる程度です。6つのタスク、16のデータセット、16のアーキテクチャにわたって、PALは指標と汎化の両方を一貫して改善します。実装は付録に示します。