ConeSep:コーンベースの堅牢なノイズ除去アンラーニングを行う合成ネットワークによる合成画像検索

arXiv cs.CV / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、合成画像検索(CIR)における高コストで誤りやすい三つ組アノテーションに起因する「Noisy Triplet Correspondence(NTC)」のノイズに焦点を当てます。
  • 参照画像とターゲット画像が非常に似ているのに変更テキストが誤っている「ハードノイズ」が、既存のノイズ対応学習法における重要な仮定を破ることを示します。
  • 著者らはNTCにおける見落とされがちな3つの課題(Modality Suppression、Negative Anchor Deficiency、Unlearning Backlash)を整理し、従来手法が難しい理由を説明します。
  • これらに対処するため、ConeSepを提案し、ノイズ境界を推定するGeometric Fidelity Quantization、埋め込み空間上で明示的な反対アンカーを学習するNegative Boundary Learning、さらに最適輸送問題として定式化するBoundary-based Targeted Unlearningを組み込みます。
  • FashionIQとCIRRのベンチマーク実験では、ConeSepが既存の最先端手法を大きく上回り、精度と頑健性の両面で有効性が示されます。

要旨: 合成画像検索(CIR)タスクは、参照画像と変更テキストによって柔軟な検索パラダイムを提供しますが、高価で誤りやすいトリプレット注釈に大きく依存しています。本論文では、注釈によって導入されるノイジー・トリプレット対応(NTC)問題を体系的に調査します。特に、NTCのノイズ、すなわち「ハードノイズ」(参照画像とターゲット画像が非常に類似している一方で、変更テキストが誤っている)こそが、既存のノイズ対応学習(NCL)手法に固有の課題をもたらすことを見出します。それは、従来の「小さな損失仮説」を破壊するためです。私たちは、NTCタスクにおける見過ごされがちな3つの重要な課題、すなわち (C1) モダリティ抑制、(C2) ネガティブアンカー不足、(C3) アンラーニング反動、を特定し解明します。これらの課題に対処するため、円錐(Cone)ベースの堅牢なノイズ・アンラーニングの合成ネットワーク(ConeSep)を提案します。具体的には、まず幾何学的忠実度量子化(Geometric Fidelity Quantization)を提案し、理論的にノイズ境界を確立するとともに、実際にそれを推定することで、ノイズのある対応位置を正確に特定します。次に、クエリごとに埋め込み空間上で明示的な意味的反対アンカーとなる「対角線上の負の組み合わせ」を学習する、ネガティブ境界学習(Negative Boundary Learning)を導入します。最後に、ノイズのある修正プロセスを最適輸送問題としてモデル化する、境界ベースのターゲット付きアンラーニング(Boundary-based Targeted Unlearning)を設計し、優雅にアンラーニング反動を回避します。ベンチマークデータセット(FashionIQおよびCIRR)での大規模な実験により、ConeSepが現在の最先端手法を大幅に上回ることを示し、提案手法の有効性と頑健性を十分に裏付けています。