CGC:細粒度マルチ画像理解のための構成的グラウンデッドコントラスト
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文は、空間的なハルシネーション、注意の漏れ、物体の恒常性の失敗といった課題に対処しつつ、マルチモーダルLLMの細粒度マルチ画像理解を改善する Compositional Grounded Contrast(CGC)を提案している。
- CGCは低コストな枠組みとして設計されており、既存の単一画像グラウンディング注釈をもとに、Inter-Image Contrast と Intra-Image Contrast を用いて構成的なマルチ画像学習インスタンスを構築する。
- GRPOフレームワークにルールベースの空間報酬を組み込み、Think-before-Grounding の方針のもとで、ソース画像の帰属、空間整合、構造化出力の妥当性を高める。
- 実験では、MIG-Bench や VLM2-Bench といった細粒度マルチ画像ベンチマークで最先端の性能を達成し、さらに MathVista や MuirBench などの幅広いマルチモーダル推論タスクにも能力が転移して、Qwen3-VL-8B ベースから複数ベンチマークで一貫した向上が報告されている。




