ReHARK: ロバストなワンショット視覚と言語適応のための洗練されたハイブリッド適応RBFカーネル
arXiv cs.CV / 2026/3/13
📰 ニュースModels & Research
要点
- 極めて限られたデータで大規模な視覚-言語モデルを下流タスクへ適応させる際の「安定性-可塑性」トレードオフに対処し、局所推定量に依存する従来のトレーニング不要手法の限界を浮き彫りにします。
- ReHARKは、少数ショット適応を再現核ヒルベルト空間(RKHS)におけるグローバル近接正則化として再解釈し、頑健性を高めるトレーニング不要の多段階改良パイプラインを導入します。
- パイプラインには、ハイブリッド事前知識構築(CLIPとGPT-3のゼロショットのテキスト知識を視覚クラスのプロトタイプと融合させて堅牢な意味-視覚アンカーを形成する)、サポートセット拡張(ブリッジング)、適応分布整合、そして多尺度RBFカーネルが含まれます。
- 11ベンチマークで平均65.83%の精度を達成し、ワンショット視覚-言語適応の新たな最先端を樹立。実用的な導入のため、コードはGitHubで公開されています。
本文: arXiv:2603.11542v1 アナウンスタイプ: new
Abstract: CLIP のような大規模 Vision-Language Models (VLMs) を、極めて限られたデータしかない下流タスクへ適応させること、特にワンショット設定では、顕著な「安定性-可塑性」ジレンマによって妨げられることが多いです。Tip-Adapter のようなトレーニング不要の手法によって効率的なキャッシュ機構が導入されている一方で、これらのアプローチはしばしば局所的なナダラヤ-ワトソン推定器として機能します。このような推定器は固有の境界バイアスとグローバルな構造正則化の欠如を特徴とします。本論文では、ReHARK(Refined Hybrid Adaptive RBF Kernels)は、再現核ヒルベルト空間(RKHS)におけるグローバル近接正則化を通じて少数ショット適応を再解釈する相乗的なトレーニング不要フレームワークとして提案されます。多段階の改良パイプラインは以下で構成されます:(1) Hybrid Prior Construction(ハイブリッド事前知識構築)—CLIPとGPT-3からのゼロショットのテキスト知識を視覚クラスのプロトタイプと融合させ、頑健な意味-視覚アンカーを形成します;(2) Support Set Augmentation(Bridging、サポートセット拡張)— 視覚とテキストモダリティ間の遷移を滑らかにする中間サンプルを生成します;(3) Adaptive Distribution Rectification(適応分布整合)— 拡張されたサポートセットに合わせてテスト特徴の統計を整合させ、ドメインシフトを緩和します;(4) Multi-Scale RBF Kernels(多尺度RBFカーネル)— 多様なスケールにわたる複雑な特徴幾何を捉えるためにカーネルのアンサンブルを用います。11の多様なベンチマークを用いた広範な実験により、卓越した安定性と精度が示されています。ReHARKはワンショット適応の新たな最先端を確立し、平均精度65.83%を達成して既存のベースラインを大幅に上回ります。コードは https://github.com/Jahid12012021/ReHARK で利用可能です。