VGR：視覚に基づく推論（Visual Grounded Reasoning）

arXiv cs.CV / 2026/5/4

📰 ニュースModels & Research

共有:

要点

VGRは、言語空間のみで行う連鎖的な推論手法の限界（言語バイアス）を補い、画像の詳細理解に基づく視覚推論能力を高めるための新しいマルチモーダルLLMです。
VGRは言語だけに基づいて回答するのではなく、問題解決に役立つ関連領域をまず検出し、その後に対応する画像領域を「リプレイ」して推論へ組み込むことで、より正確な答えを生成します。
VGRの学習には、視覚グラウンディングと言語推論を混在させた大規模SFTデータセット「VGR-SFT」を構築して用いています。
実験ではLLaVA-NeXT-7Bのベースラインに対して、画像の詳細理解を要するマルチモーダル評価でVGRが上回り、かつ画像トークン数を約30%に抑えながら性能を改善しています。
ベースライン比での向上として、MMStarが+4.1、AI2Dが+7.1、ChartQAが+12.9と報告されています。

Abstract

多モーダルな連鎖的思考（CoT）推論の分野では、既存のアプローチの多くが純粋な言語空間上での推論に主に依存しています。しかし、この方法は本質的に言語バイアスを受けやすく、数学や科学ドメインに大きく限定されています。このような狭い焦点は、画像の詳細を包括的に理解することを要する複雑な視覚推論タスクへの対応能力を制限します。これらの制限に対処するため、本論文では、微細な視覚知覚能力を強化した新しい推論マルチモーダル大規模言語モデル（MLLM）であるVGRを提案します。言語空間だけに基づいて質問に答えたり推論したりする従来のMLLMとは異なり、私たちのVGRはまず、問題の解決に役立つ可能性のある関連領域を検出し、その後、再生された画像領域に基づいて正確な回答を提示します。これを実現するために、視覚グラウンディングと言語推論が混在した推論データを含む、大規模なSFTデータセットであるVGR -SFTを構築しました。VGRの推論パイプラインでは、モデルが視覚的参照としてバウンディングボックスを選択できるようになっており、さらに、対応する領域を推論プロセスへ統合するためのリプレイ段階が導入されることで、マルチモーダルな理解が強化されます。LLaVA-NeXT-7Bのベースラインに関する実験では、VGRは、画像の詳細の包括的理解を必要とするマルチモーダルのベンチマークにおいて優れた性能を達成することが示されています。ベースラインと比較してVGRは画像トークン数のわずか30\%しか使用しない一方で、MMStarで+4.1、AI2Dで+7.1、ChartQAで+12.9の改善を示します。