報酬ガイド付き自己強化戦略による非対(Unpaired)画像のデライニング

arXiv cs.CV / 2026/5/4

📰 ニュースModels & Research

要点

  • 本論文は、RGSUD(Reward-Guided Self-Reinforcement Unsupervised Image Deraining)という手法を提案し、対(ペア)付き教師なしで実世界の降雨劣化を学習することで非対のデライニング性能を高めます。
  • IQA(Image Quality Assessment)に基づくダイナミックな報酬リサイクル段階を導入し、学習中に高品質に復元できたデライニング出力を選別して擬似的なクリーン例を継続的に収集します。
  • 自己強化(SR)学習段階では、更新され続ける報酬をモデルの最適化に組み込み、探索空間を狭めつつ、デライニング結果とクリーン画像との整合性を改善します。
  • 複数のデータセット(合成のペア実画像、実画像のペア、非ペア実画像)で、既存の非教師ありデライニング手法に対し主観評価と客観IQAの両方でSOTA性能が示されます。
  • また、自己強化戦略は他の非教師ありデライニング手法にも適用可能で、提案フレームワークが既存の教師ありデライニングネットワークに対しても良好な汎化を示すと報告しています。

Abstract

教師なしによる脱雨は、対応する教師(ペア)なしで雨の実世界の分布を学習できるため注目を集めている。しかし、強力な制約が欠けているため、特に雨による劣化の複雑で多様な性質のもとでは、ネットワークが収束しづらい。重要な動機は、高品質な脱雨結果が学習中にたまに現れることであり、これを最適化プロセスの指針として活用できる点にある。これらの課題を克服するために、我々はRGSUD(Reward-Guided Self-Reinforcement Unsupervised Image Deraining:報酬誘導自己強化による教師なし画像脱雨)を導入する。これは2つの主要段階、すなわち報酬リサイクルと自己強化(SR)学習から構成される。前者の段階では、学習中に最適な脱雨出力を選択し、高品質な脱雨画像を継続的に収集する、画像品質評価(IQA)に基づく動的な報酬リサイクル機構を提案する。後者の段階では、これらの報酬をモデルの最適化プロセスに組み込み、最適化空間を制約することで、脱雨出力とクリーン画像との整合性を改善する。IQAベースの自己強化損失と、動的に更新される報酬を活用することで、合成された疑似ペアデータの品質を高め、最適化を安定化する。広範な実験により、本手法はペアの合成画像、ペアの実画像、未ペアの実画像を含む複数のデータセットにおいてSOTA(state-of-the-art)の性能を達成し、主観および客観のIQA指標の両方で既存の教師なし脱雨アプローチを上回ることを示す。さらに、自己強化戦略は他の教師なし脱雨手法にも適応可能であり、我々の脱雨フレームワークは既存の教師あり脱雨ネットワークに対して強い汎化性能を示す。