Few-Shot Learningアダプターを高度化するための訓練時限定の異種画像パッチ-テキストグラフ監督

arXiv cs.CV / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、訓練中にのみ実行され、多尺度の視覚パッチとテキストプロンプト間のクロスモーダル関係を捉える訓練専用の異種画像パッチ-テキストグラフ教師を導入する。
教師はモダリティを意識したグラフ・トランスフォーマーを用いて深いクロスモーダル推論を行い、識別的ノードフィルタリングを適用して高忠実度のクラス特徴を抽出する。
キャッシュを意識した双目的戦略を用いて、関係知識を Tip-Adapter のキー-値キャッシュへ注入・監督し、プロトタイプをアップグレードする。一方、グラフ教師はテスト時に破棄され、追加の推論コストは発生しません。
標準的な 1〜16ショットのベンチマークにおける実験は最先端の性能を報告し、アブレーションは補助グラフ監督、テキスト誘導推論、ノードフィルタリングの重要性を示しています。
コードは https://github.com/MR-Sherif/TOGA.git で公開されています。

要旨：最近のアダプターベースの CLIP チューニング（例：Tip-Adapter）は、サポート特徴をキャッシュして高速なプロトタイプ照合を実現することで、強力な少数ショット学習モデルとなっている。しかし、これらの方法はグローバルな単一モーダル特徴ベクトルに依存しており、細粒度のパッチ間の関係とクラステキストとの構造的整合性を見落としている。このギャップを推論コストを発生させずに埋めるため、非対称のトレーニング専用フレームワークを提案します。軽量アダプターを変更する代わりに、トレーニング中のみ動作する高容量の補助的ヘテロジニアスグラフ教師を構築します。この教師 (i) 複数スケールの視覚パッチとテキストプロンプトを統一グラフに統合し、(ii) Modality-aware Graph Transformer (MGT) による深いクロスモーダル推論を実行し、(iii) 判別的ノードフィルタリングを適用して高忠実度のクラス特徴を抽出します。特に、キャッシュ対応型の二重目的戦略を採用し、この関係知識を直接 Tip-Adapter のキー-値キャッシュに監督させ、テスト時にはグラフ教師を破棄する一方でプロトタイプを実質的にアップグレードします。したがって、推論は追加の待機遅延やメモリを一切増やすことなく、Tip-Adapterと同一のままです。標準の1〜16ショットのベンチマークにおいて、我々の手法は一貫して新しい最先端を確立します。アブレーション実験から、補助グラフ監督、テキスト誘導推論、ノードフィルタリングが、堅牢な少数ショット適応の不可欠な要素であることが確認されました。コードは https://github.com/MR-Sherif/TOGA.git に公開されています。