コントラスト学習と指数移動平均(EMA)蒸留を用いた、きめ細かなファッション画像検索のためのマルチヘッド連続学習フレームワーク

arXiv cs.CV / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存のきめ細かなファッション画像検索(FIR)手法が静的な属性/クラス空間を前提としており、新しい属性が登場するたびに高コストな全再学習が必要になることを指摘し、動的な状況に対してクラス増分学習を動機づける。
  • 進化するクラスを各インクリメントにまたいで扱える、マルチヘッド連続学習フレームワーク MCL-FIR を提案する。さらに、再構成したトリプレット入力から導出した InfoNCE 風の定式化に基づくコントラスト学習を用いる。
  • 指数移動平均(EMA)蒸留を追加し、繰り返しの全再学習を不要にしつつ、インクリメント間で効率よく知識を移す。
  • 4つのデータセットでの実験により、MCL-FIR がスケーラビリティを向上させ、好ましい効率—精度のトレードオフを達成し、同等の学習コストのもとで連続学習のベースラインよりも優れていることを示す。
  • 静的な再学習アプローチと比べて、本フレームワークは同等の検索性能に到達しつつ、学習コストは約30%で済む。著者らは公開のソースコードも提供している。

Abstract

ほとんどのきめ細かなファッション画像検索(FIR)手法は静的な設定を前提としており、新しい属性が現れるたびにフル再学習が必要です。そのためコストが高く、動的なシナリオでは現実的ではありません。事前学習済みモデルはゼロショット推論をサポートしますが、教師信号がないと精度が低下し、また、きめ細かなFIRに対してクラス増分学習(CIL)を扱った先行研究はありません。本研究では、コントラスティブ学習と指数移動平均(EMA)蒸留を用いた、きめ細かなファッション画像検索のためのマルチヘッド継続学習フレームワーク(MCL-FIR)を提案します。MCL-FIRは、インクリメントを通じて変化するクラスに対応するためにマルチヘッド設計を採用し、トリプレット入力をInfoNCEによるダブレットへと再構成することで、より単純かつ効果的な学習を実現し、効率的な知識伝達のためにEMA蒸留を用います。4つのデータセットにわたる実験の結果、MCL-FIRは拡張性に加えて、効率と精度の間の強いバランスを達成することが示されました。同等の学習コストの下で、CILのベースラインを大幅に上回り、静的手法と比較しても、学習コストの約30%しか使用しないにもかかわらず、同等の性能を提供します。ソースコードは https://github.com/Dr-LingXiao/MCL-FIR で公開されています。