広告

コントラストを超えた一貫性:文脈的一貫性学習によるオープンボキャブラリ物体検出の頑健性向上

arXiv cs.CV / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オープンボキャブラリ物体検出手法がしばしばクロスモーダル整合(言語—視覚)を改善する一方で、背景や環境が変化した際の同一モダリティ内における一貫性(within-modality consistency)を見落としていると主張する。
  • 本研究では、Contextual Consistency Learning(CCL)を提案する。これは、Contextual Bootstrapped Data Generation(CBDG)により、さまざまな背景においても対象物が一貫しているデータを合成し、さらにContextual Consistency Loss(CCLoss)で環境変動下での特徴不変性を強制することで構成される。
  • 本フレームワークは、文脈的手がかりが一貫しないことにより、異なるシーン間で同一の物体アイデンティティをモデルが認識できないという頑健性ギャップを対象とする。
  • 実験では最先端の性能向上が報告されており、既存手法に比べてOmniLabelで+16.3 AP、D3で+14.9 APの改善を達成している。
  • 著者らはCCLの公開コードを提供しており、他の研究者が再現および発展させることを可能にしている。

要旨: 近年のオープンワード語彙(open-vocabulary)物体検出に関する進展は、主に2つの側面に焦点を当てています。すなわち、データセットの大規模化と、言語モダリティと視覚モダリティを整合させるためのコントラスト学習の活用です。しかしながら、これらのアプローチは、多くの場合、単一モダリティ内における内部整合性、特に背景や環境の変化が起きる場合を軽視しています。この整合性の欠如は、モデルが異なるシーンにおいて同一の物体を検出するのに苦労するため、性能低下につながり、頑健性(ロバストネス)のギャップが露呈します。
この問題に対処するため、我々は、文脈的整合性学習(Contextual Consistency Learning: CCL)という新しい枠組みを提案します。この枠組みは、2つの重要な戦略を統合しています。文脈的ブートストラップデータ生成(Contextual Bootstrapped Data Generation: CBDG)と、文脈的整合性損失(Contextual Consistency Loss: CCLoss)です。CBDGはデータ生成メカニズムとして機能し、多様な背景の下でも同一の物体を含む画像を生成します。これは必須です。なぜなら、既存のデータセットだけでは我々のCCLフレームワークを支えることができないからです。CCLossはさらに、環境の変化があっても物体特徴の不変性を強制し、異なるシーンにおけるモデルの頑健性を向上させます。これらの戦略はまとめて、同一モダリティ内における文脈的整合性を保証するための統一された枠組みを形成します。
本手法は最先端の性能を達成し、OmniLabelで+16.3 AP、D3で+14.9 APにより、従来手法を上回ります。これらの結果は、モダリティ内部での整合性を強制することの重要性を示しており、多様な環境においてモデルの汎化能力を大幅に高めることが分かります。コードは公開されています: https://github.com/bozhao-li/CCL。

広告
コントラストを超えた一貫性:文脈的一貫性学習によるオープンボキャブラリ物体検出の頑健性向上 | AI Navigate