否定を極める:グループ化された対立ベース学習によるグラウンディングモデルの強化

arXiv cs.AI / 2026/3/16

💬 オピニオンModels & Research

要点

  • D-Negationデータセットを紹介し、視覚と言語グラウンディングにおける否定をより適切に捉えるため、正の意味記述と負の意味記述の両方で注釈付けされた対象物を提供する。
  • 対立的意味記述をグループ化して整理し、2つの補完的な損失関数を用いて、限られたサンプルから否定を意識した表現を学習するグループ化された対立ベース学習フレームワークを提案する。
  • データセットと学習戦略を最先端の言語ベースのグラウンディングモデルへ統合することを実証し、モデルパラメータの微調整は10%未満に抑えることに成功した。
  • 正の意味記述に対して最大4.4 mAP、負の意味記述に対して最大5.7 mAPの向上を報告し、堅牢性と局所化精度の改善を示している。

要約: 現在のビジョン-言語検出およびグラウンディングモデルは、主に正の意味を持つプロンプトに焦点を当て、ネガティブな意味を含む複雑な表現を正確に解釈・グラウンディングすることが難しいことが多い。 この制限の主な原因は、識別的なネガティブサンプルと否定を意識した言語説明を明示的に捉える高品質な訓練データの不足である。
この課題に対処するため、正と負の意味記述の両方で注釈付けされたオブジェクトを提供する新しいデータセットである D-Negation を導入します。自然言語には否定推論が頻繁に現れるという観察を踏まえ、限られたサンプルから否定を意識した表現を学習する、グループ化された対立ベースの学習フレームワークを提案します。具体的には、D-Negation の対立的意味記述を構造化されたグループに整理し、否定と意味的修飾子についてモデルに推論を促す2つの補完的な損失関数を定式化します。
提案されたデータセットと学習戦略を、最先端の言語ベースのグラウンディングモデルに統合します。モデルパラメータのうち10%未満を微調整することにより、正の意味評価と負の意味評価で、それぞれ最大4.4 mAPと5.7 mAPの改善を達成します。これらの結果は、否定意味を明示的にモデリングすることが、ビジョン-言語グラウンディングモデルの堅牢性と局所化精度を大幅に向上させることを示しています。