Omni-NegCLIP：否定理解を包括的に高めるためのフロント層コントラスト学習によるCLIPの強化

arXiv cs.CV / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデルの2つの一般的な否定（存在に基づく否定、欠如に基づく否定）の理解を改善するために設計された、微調整済みのCLIPであるOmni-NegCLIPを提案する。
それは、CLIPの元来のInfoNCEコントラスト損失を修正し、別々の目的関数を用いることで、(a) 存在に基づく否定を含むキャプションの画像を分離しつつ、それらを元のキャプションの埋め込みへ引き寄せること、および (b) 関連するテキスト埋め込み間の意味的な区別を保持しながら、画像を元の否定なしキャプションと欠如に基づく否定キャプションの双方により適切に整合させること、の2点を実現する。
著者らは、学習中にCLIPのテキストエンコーダのうち前段（フロント）トランスフォーマ層のみを微調整する。これは、より前の層のほうが後の層よりも否定されたテキスト表現をより効果的に学習するという観察に基づく。
実験では、学習済み（事前学習済み）CLIPに対して大幅な向上が報告されており、存在に基づく否定で最大52.65%の改善、欠如に基づく否定で最大12.50%の改善が得られる。さらに、一般的な画像—テキスト検索性能は低下せず、場合によっては最大19.62%の向上も示される。
先行アプローチと比較して、Omni-NegCLIPは複数の否定タスクタイプにわたってより包括的な能力を持つと位置づけられている。

要旨: Vision-Language Models（VLM）は、幅広いマルチモーダル課題において強力な性能を示している。しかし近年の研究では、CLIP のような VLM が、自然言語で一般的に現れる否定表現の理解においては性能が低いことが示されている。本研究では、CLIP のオリジナルの InfoNCE コントラスト損失を改変することで、2 種類の否定、すなわち存在ベースの否定と不在ベースの否定の理解を改善する微調整済み CLIP モデル「Omni-NegCLIP」を提案する。存在ベースの否定と不在ベースの否定は、それぞれ「実際に画像内に存在する物体の否定された表現」と、「画像内にありうるが実際には存在しない物体の否定された表現」に対応する。具体的には、存在ベースのコントラスト目的として、画像埋め込みを元のキャプション埋め込みに引き寄せ、対応する存在ベースの否定キャプション埋め込みからは引き離すように設計する。また、不在ベースのコントラスト目的として、画像埋め込みを元の否定キャプション埋め込みと不在ベースの否定キャプション埋め込みの両方に整合させつつ、両テキスト埋め込み間で意味的な区別を維持するように設計する。さらに、CLIP テキストエンコーダの前段のトランスフォーマ層は、後段の層よりも否定されたテキストに対する学習能力が強いという観察に基づき、各学習ステップで、結合したコントラスト目的を用いて CLIP テキストエンコーダの前段のトランスフォーマ層を微調整する。実験結果より、事前学習済み CLIP と比較して、Omni-NegCLIP は存在ベースの否定タスクおよび不在ベースの否定タスクにおいて、それぞれ最大 52.65% と 12.50% の性能向上を示し、画像-テキスト検索における汎用能力を損なうことなく、むしろ最大 19.62% 改善さえしている。先行研究と比べて、Omni-NegCLIP は複数の種類の否定タスクを理解するための、より包括的な能力を示す。