ノイズを考慮した少数ショット学習のための双方向マルチビュー・プロンプト整列

arXiv cs.CV / 2026/3/13

📰 ニュースModels & Research

要点

  • NA-MVP は、ノイズの多い監督下で、堅牢性を高めるために双方向のマルチビュー・プロンプト整列を通じたノイズ対応の少数ショット学習を導入する。
  • このアプローチは、非均衡最適輸送を用いて細粒度のパッチ-to-プロンプト対応を実現し、信頼できない領域を抑制する。
  • クリーン志向の手掛かりとノイズ認識の手掛りを補完的に捉える双方向のプロンプト設計を特徴とし、安定した意味論を強調する。
  • アラインメントに導かれた選択的改良戦略は、最適輸送を用いて誤ってラベル付けされたサンプルのみを修正し、信頼性のあるデータを保持する。合成データおよび実世界のノイズ付きベンチマークで、最先端の改善を示している。
本文: arXiv:2603.11617v1 アナウンス種別: new 概要: ビジョン-言語モデルは、プロンプト微調整によって強力な少数ショット能力を提供しますが、ノイズの多いラベルには脆弱であり、プロンプトを汚染し、クロスモーダル整合を劣化させる可能性があります。既存のアプローチは、細粒度の意味的手掛かりをモデリングし、クリーン信号とノイズ信号を適応的に分離する能力を欠くことが多いため、難航しています。これらの課題に対処するため、双方向のマルチビュー・プロンプト整列を通じたノイズ対応の少数ショット学習のフレームワーク NA-MVP を提案します。NA-MVP は、堅牢なプロンプト学習にはグローバルなマッチングから領域認識型の整列へと移行し、クリーンな手掛かりとノイズの手掛かりを明示的に区別するという重要な概念的転換に基づいて構築されています。これを実現するために、NA-MVP は(1)信頼できない領域を抑制しつつ、微細なパッチとプロンプトの対応を実現するために非均衡最適輸送と組み合わせたマルチビュー・プロンプト、(2)補完的なクリーン志向の手掛かりとノイズ認識の手掛かりを捉え、モデルが安定した意味論に焦点を合わせられるようにする双方向のプロンプト設計、(3)アラインメントに導かれた選択的な改良戦略は最適輸送を用いて誤ってラベル付けされたサンプルのみを修正し、信頼できるデータを保持する、という要素から成っています。実験は、合成データと実世界のノイズの多いベンチマークで行われ、NA-MVP が最先端のベースラインを一貫して上回ることを示しており、ノイズ付き監督下での堅牢な少数ショット学習を実現する有効性を確認しています。