局所クロスモーダル整合とステアリングによるジオメトリ対応CLIP検索
arXiv cs.CV / 2026/4/21
📰 ニュースModels & Research
要点
- この論文は、CLIPベースの検索失敗の多くが埋め込み空間における局所的な幾何的不整合から生じ、近いアイテム同士が誤って並べ替わることで系統的な混同が起きると主張している。
- その解決として、検索を点ごとの類似度問題ではなく「近傍(近くの集合)の整合」として捉え直す。
- 提案手法の1つ目として、ハンガリー(Hungarian)マッチングによる近傍レランキングを行い、近傍同士の構造的一貫性を高く評価する。
- 2つ目として、クエリ周辺の対比的な近傍から得た方向を用いる「クエリ条件付きローカル・ステアリング」により、検索の近傍構造自体を作り変える。
- 実験では、属性バインディングや合成(compositional)検索タスクで性能が向上し、再学習なしで推論時に品質と制御性の両方を高められることを示している。
関連記事

Agent Package Manager(APM):再現可能なAIエージェントのためのDevOpsガイド
Dev.to

実開発でClaude、GPT-4o、Geminiをベンチマークして学んだ3つのこと
Dev.to

ARPAのSkillware & Rooms(AI/ML/Python)でオープンソースの貢献者を募集
Dev.to
本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]
Reddit r/MachineLearning
AIシステムが回答途中でランダムにフランス語へ切り替わってしまう問題—原因が分かるまで時間がかかった
Reddit r/artificial