VGR:視覚に基づく推論(Visual Grounded Reasoning)
arXiv cs.CV / 2026/5/4
📰 ニュースModels & Research
要点
- VGRは、言語空間のみで行う連鎖的な推論手法の限界(言語バイアス)を補い、画像の詳細理解に基づく視覚推論能力を高めるための新しいマルチモーダルLLMです。
- VGRは言語だけに基づいて回答するのではなく、問題解決に役立つ関連領域をまず検出し、その後に対応する画像領域を「リプレイ」して推論へ組み込むことで、より正確な答えを生成します。
- VGRの学習には、視覚グラウンディングと言語推論を混在させた大規模SFTデータセット「VGR-SFT」を構築して用いています。
- 実験ではLLaVA-NeXT-7Bのベースラインに対して、画像の詳細理解を要するマルチモーダル評価でVGRが上回り、かつ画像トークン数を約30%に抑えながら性能を改善しています。
- ベースライン比での向上として、MMStarが+4.1、AI2Dが+7.1、ChartQAが+12.9と報告されています。
関連記事

Power PlatformにおけるALM:ADO+GitHubで「両方の良いところ」を取る
Dev.to

実験:RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか?
Dev.to

「覚えたルール」がバグにも都合よく当てはまるとき——エージェントワークフローのメタトラップ
Dev.to
LWiAIポッドキャスト #243 - GPT 5.5、DeepSeek V4、AI安全の妨害
Last Week in AI

マルチモーダルAI「Flamingo」を読むための前提知識まとめ②(Catastrophic Forgetting、Frozen backbone、セルフアテンションとクロスアテンション、自己回帰モデル)
Qiita