ソースフリーのクロスドメイン少数ショット学習における識別性の罠に注意

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 視覚-言語モデルを用いたソースフリーのクロスドメイン少数ショット学習(SF-CDFSL)は、視覚的識別性を強化することが、クロモーダル整合性と全体的な性能を損なう識別性の罠にはまる可能性がある。
  • 本論文は、クロスエントロピー微調整が視覚学習とクロモーダル学習へどのように分解されるかを分析し、視覚成分が支配的となってクロモーダル整合性を妨げることを示している。
  • 2段階の解法を提案する。まず視覚学習を撹乱してモデルをクロモーダル整合性へ向かってバイアス付けする。次に、ファインチューニング中に視覚とテキストのモダリティを、視覚-テキストの意味関係を用いて徐々に整合させる。
  • 複数のバックボーン(CLIP、SigLip、PE-Core)とデータセット(CDFSLを4つ、FSLを11のデータセット)にわたる広範な実験により、一貫して最先端の成果を示し、再現性のためのコードを公開している。

要約:
ソースフリー跨ドメイン・Few-Shot 学習(SF-CDFSL)は、ターゲットドメイン(例:医療画像や衛星画像)からの限られたトレーニングデータでファインチューニングを行うことに焦点を当てます。ここで、CLIPやSigLIPなどのビジョン-言語モデル(VLMs)は有望な結果を示しています。従来の視覚モデルの研究は、視覚的識別性を高めることが性能を高めると示唆します。しかし、VLMベースのSF-CDFSLタスクでは、\textbf{視覚モーダル識別性を強化することは実際にはVLMsの性能を抑制する}ことを発見しました。本論文では、この現象を解釈と解決策のために深掘りします。理論的および実験的証拠の両方から、典型的なクロスエントロピー損失(\mathcal{L}_{\mathrm{vlm}})を用いたファインチューニングには、視覚学習部分と跨モーダル学習部分が本質的に含まれ、跨モーダル部分がSF-CDFSLにおける著しく乱れたモダリティのミスマッチを是正するうえで重要です。しかし、視覚学習は本質的にショートカットとして機能し、跨モーダル部分を考慮せずに \mathcal{L}_{\mathrm{vlm}} の低減を促すことで、跨モーダルの整合を妨げ、性能を害します。この解釈に基づき、この問題に対処するアプローチを提案します:まず、視覚学習を攪乱してモデルを跨モーダルの整合に焦点を合わせるよう導きます。次に、視覚とテキストの意味的関係を用いて、ファインチューニングの過程で視覚モダリティとテキストモダリティを徐々に整合させます。さまざまな設定、バックボーン(CLIP、SigLip、PE-Core)、およびタスク(4つのCDFSLデータセットと11のFSLデータセット)における広範な実験から、我々は一貫して新たな最先端の成果を達成していることを示しています。コードは https://github.com/zhenyuZ-HUST/CVPR26-Mind-the-Discriminability-Trap に公開されています。

ソースフリーのクロスドメイン少数ショット学習における識別性の罠に注意 | AI Navigate