On the Global Photometric Alignment for Low-Level Vision

arXiv cs.CV / 4/10/2026

📰 NewsSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 低レベル視覚の教師あり学習では、画素ごとの損失が参照と対になった学習データのフォトメトリック(明るさ/色/ホワイトバランス等)不一致により最適化の病理を引き起こし、復元内容の学習が阻害されることを問題として提示しています。
  • 解析により、(最小二乗分解の下で)予測とターゲットの残差はフォトメトリック成分と構造成分の直交性を持ち、さらにフォトメトリック密成分が勾配エネルギーを支配するため、既存の損失設計が不一致に引きずられる構図を示しています。
  • これを受けて、不要なフォトメトリック差を閉形式のアフィン色アラインメントで割り引きつつ復元に関わる学習信号は保持する「Photometric Alignment Loss (PAL)」を提案しています。
  • PALは共分散統計と小さな行列の反転のみで実装可能でオーバーヘッドが小さく、6タスク・16データセット・16アーキテクチャで一貫して指標と汎化が改善されたと報告しています。

Abstract

Supervised low-level vision models rely on pixel-wise losses against paired references, yet paired training sets exhibit per-pair photometric inconsistency, say, different image pairs demand different global brightness, color, or white-balance mappings. This inconsistency enters through task-intrinsic photometric transfer (e.g., low-light enhancement) or unintended acquisition shifts (e.g., de-raining), and in either case causes an optimization pathology. Standard reconstruction losses allocate disproportionate gradient budget to conflicting per-pair photometric targets, crowding out content restoration. In this paper, we investigate this issue and prove that, under least-squares decomposition, the photometric and structural components of the prediction-target residual are orthogonal, and that the spatially dense photometric component dominates the gradient energy. Motivated by this analysis, we propose Photometric Alignment Loss (PAL). This flexible supervision objective discounts nuisance photometric discrepancy via closed-form affine color alignment while preserving restoration-relevant supervision, requiring only covariance statistics and tiny matrix inversion with negligible overhead. Across 6 tasks, 16 datasets, and 16 architectures, PAL consistently improves metrics and generalization. The implementation is in the appendix.