視覚言語モデルにおける否定が幾何学の問題になるとき

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • CLIPのような視覚言語埋め込みモデルは、テキストクエリ内の否定(例:「ロゴなしの青いシャツ」中の “no”)を解釈することに苦手意識があることが示されている。
  • 合成の否定データセットを用いるデータ中心の修正は、否定を本当に理解できているかどうかを実際に測れていない可能性のある検索指標に依存しているとして批判されている。
  • 本論文は、多モーダルLLMをジャッジとして用い、「yes/no」形式の内容質問に答えさせることで、否定理解をより確実に評価するための代替的な評価アプローチを提案する。
  • 「否定の方向性」がCLIPの埋め込み空間に存在することを示すとともに、微調整なしで表現工学(representation engineering)によるテスト時のステアリングにより、否定を考慮した挙動を改善できることを実証する。
  • 本研究では、分布シフト下での汎化を調べるため、分布外(out-of-distribution)の画像—テキストサンプルに対して否定性能を評価する。