局所クロスモーダル整合とステアリングによるジオメトリ対応CLIP検索

arXiv cs.CV / 2026/4/21

📰 ニュースModels & Research

要点

  • この論文は、CLIPベースの検索失敗の多くが埋め込み空間における局所的な幾何的不整合から生じ、近いアイテム同士が誤って並べ替わることで系統的な混同が起きると主張している。
  • その解決として、検索を点ごとの類似度問題ではなく「近傍(近くの集合)の整合」として捉え直す。
  • 提案手法の1つ目として、ハンガリー(Hungarian)マッチングによる近傍レランキングを行い、近傍同士の構造的一貫性を高く評価する。
  • 2つ目として、クエリ周辺の対比的な近傍から得た方向を用いる「クエリ条件付きローカル・ステアリング」により、検索の近傍構造自体を作り変える。
  • 実験では、属性バインディングや合成(compositional)検索タスクで性能が向上し、再学習なしで推論時に品質と制御性の両方を高められることを示している。