CGC:細粒度マルチ画像理解のための構成的グラウンデッドコントラスト

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 論文は、空間的なハルシネーション、注意の漏れ、物体の恒常性の失敗といった課題に対処しつつ、マルチモーダルLLMの細粒度マルチ画像理解を改善する Compositional Grounded Contrast(CGC)を提案している。
  • CGCは低コストな枠組みとして設計されており、既存の単一画像グラウンディング注釈をもとに、Inter-Image Contrast と Intra-Image Contrast を用いて構成的なマルチ画像学習インスタンスを構築する。
  • GRPOフレームワークにルールベースの空間報酬を組み込み、Think-before-Grounding の方針のもとで、ソース画像の帰属、空間整合、構造化出力の妥当性を高める。
  • 実験では、MIG-Bench や VLM2-Bench といった細粒度マルチ画像ベンチマークで最先端の性能を達成し、さらに MathVista や MuirBench などの幅広いマルチモーダル推論タスクにも能力が転移して、Qwen3-VL-8B ベースから複数ベンチマークで一貫した向上が報告されている。

Abstract

多種類のモダリティを扱う大規模言語モデル(MLLMs)は急速に進歩しているものの、きめ細かな複数画像理解には依然として顕著な課題が残っています。具体的には、空間的な幻覚、注意の漏れ、そして物体の不変性に関する失敗がしばしば見られます。さらに、既存の手法は通常、高価な人手によるアノテーション、または大規模なチェーン・オブ・ソート(CoT)データ生成に依存しています。私たちは、MLLMのきめ細かな複数画像理解を向上させるための、低コストな全体フレームワークであるCompositional Grounded Contrast(略称: CGC)を提案します。CGCは既存の単一画像グラウンディング・アノテーションに基づき、Inter-Image ContrastとIntra-Image Contrastによって、意味的に分離されたダミー(distractor)コンテキストを導入して画像間識別を行うと同時に、物体の不変性のための相関するクロスビュー・サンプルを導入し、合成的な複数画像の学習インスタンスを構築します。さらにCGCは、Think-before-Groundingのパラダイムのもとで、GRPOフレームワーク内にルールベースの空間報酬(Rule-Based Spatial Reward)を導入し、ソース画像の帰属、空間的な整合、ならびに構造化された出力の妥当性を改善します。実験の結果、CGCはMIG-BenchおよびVLM2-Benchを含む、きめ細かな複数画像ベンチマークにおいて先端(state-of-the-art)の結果を達成することが示されました。学習された複数画像理解能力は、より幅広いマルチモーダル理解および推論タスクにも転移し、Qwen3-VL-8Bベースモデルに対してMathVista(+2.90)、MuirBench(+2.88)、MMStar(+1.93)、MMMU(+1.77)、BLINK(+1.69)で一貫した向上をもたらします。