WRF4CIR:複合画像検索のための重み正則化ファインチューニングネットワーク

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、複合画像検索(Composed Image Retrieval: CIR)において、特にトリプレット教師信号が限られている場合に、視覚と言語の事前学習モデルをファインチューニングすると過学習が起きやすい理由を調査している。
  • 論文では、異なるモデルやデータセット設定にまたがって持続する重要な一般化ギャップを特定し、形式化する。著者らは、この点がこれまで見過ごされてきたと主張する。
  • これに対処するため、著者らはWRF4CIRを提案する。これは、勾配降下(gradient descent)とは反対方向に生成される敵対的な重み摂動を用いた、重み正則化に基づくファインチューニング手法である。
  • ベンチマークデータセットでの実験により、WRF4CIRは一般化ギャップを大幅に低減し、既存のCIR手法よりも検索性能を向上させることが示されている。
  • 全体として、本研究はCIRのファインチューニングを、より良い一般化のためにファインチューニング過程の頑健な正則化が重要になる問題として再構成している。