Concrete Jungle:合成理解に向けた、コンクリート化した対比的ネガティブマイニング

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデルが合成的推論に苦労するのは、対比(contrastive)による事前学習が、語順や属性の結びつきのような微妙な意味の違いを見分けるのに十分な情報量を持つネガティブ(負例)サンプルを欠いているためだと主張する。
  • ネガティブマイニングは語彙の「具体性(lexical concreteness)」に基づいて行うべきだと提案し、高度に具体的な用語を置き換えることで、より強い知覚的・構造的な不一致が生まれ、より効果的な学習信号が得られるとする。
  • 提案手法は、対比的ネガティブマイニングのために知覚に根ざした概念を体系的に操作する ConcretePlant/Slipform を導入し、InfoNCE の分析により重大な勾配(gradient)不均衡が生じることを示す。
  • 過度に容易なペアが学習を支配してしまうことによる最適化の劣化に対処するため、心理言語学的な具体性スコア(サンプルの難しさと相関する)を用いてペナルティを動的に調整する、マージン(margin)に基づく「Cement loss」を定式化する。
  • 実験では、合成理解ベンチマークにおいて新たな最先端(state-of-the-art)の結果を報告するほか、単一ラベルおよびマルチラベルの両設定において、クロスモーダル検索や線形プロービングの性能が向上したと報告する。