回転対称性の事前知識を埋め込んだイメージ・ツー・イメージ変換フレームワーク

arXiv cs.CV / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、回転群の等変(equivariant)畳み込みを用いて回転対称性の事前知識を埋め込み、ネットワーク内でドメイン非依存の回転構造をエンドツーエンドで保持する、イメージ・ツー・イメージ変換(I2I)フレームワークを提案する。
  • 「変換を学習可能な等変畳み込み」(Transformation Learnable Equivariant Convolutions: TL-Conv)を導入し、異なるデータセット間での対称性保持を改善するために、変換群を適応的に学習する。
  • 著者らは、TL-Convの等変誤差解析に基づき、連続領域における厳密な等変性や、離散設定に対する誤差上界などを含む理論的保証を提示する。
  • 複数のI2Iタスクにまたがる大規模な実験により、生成品質の向上と、本手法の幅広い適用可能性が示されたと報告されており、コードはGitHubで公開されている。

概要: 画像から画像への変換(I2I)は、コンピュータビジョンにおける基本的な課題であり、入力画像をソース領域からターゲット領域に対応する画像へ写像しながら、領域不変な特徴を保持し、領域固有の属性に適応することに焦点を当てています。深層学習ベースのI2I手法が目覚ましい成功を収めているにもかかわらず、対応するペアデータの欠如や教師なし学習の枠組みが、依然としてその有効性を妨げています。本研究では、変換の対称性に関する事前知識を画像から画像への変換ネットワークに組み込むことで、この課題に取り組みます。具体的には、回転群に対する同変な畳み込みを導入し、回転同変なI2Iフレームワークを実現します。これは、この研究方向において、我々の知る限り新しい貢献です。この設計により、自然画像および科学画像における最も本質的で領域不変な性質の一つである回転対称性が、ネットワーク全体を通して保持されます。さらに、実データセットにおける画像対称性の事前知識について体系的な検討を行い、変換を学習可能な同変畳み込み(TL-Conv)という新しい手法を提案します。これは、変換群を適応的に学習し、多様なデータセットにわたって対称性の保持を強化します。また、TL-Convの同変性誤差に関する理論解析も行い、連続領域では正確な同変性を維持することを証明し、離散の場合には誤差の上界を与えます。さまざまなI2I課題に対する大規模な実験を通じて、我々のアプローチの有効性と優れた性能を検証し、生成品質の向上における同変ネットワークの可能性と、その幅広い適用可能性を示します。コードは https://github.com/tanfy929/Equivariant-I2I で公開しています