VG-CoT：根拠に基づくチェーン・オブ・ソートで信頼できる視覚推論へ

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、推論の各ステップを検証可能な画像証拠に明示的に結びつけることで、大規模なビジョン言語モデルの推論を信頼できるものにするVG-CoTデータセットを提案しています。
従来データセットのスケーラビリティ課題に対し、検出＋OCRによる視覚的根拠抽出、GPT-4oを用いた根拠付きの段階的推論生成、さらに理由に基づくオープンセット検出での根拠の精緻化という、完全自動の3段階パイプラインで対応します。
LVLMの評価を「推論の根拠の質」「回答精度」「推論と回答の整合」の3次元で行う新しいベンチマークも提案されています。
LLaVA-1.5やQwen2-VLなどのモデルで実験した結果、ほとんどの評価指標で改善が見られ、証拠に基づく推論を強化しつつコスト効率も維持できることが示唆されています。
採択後にデータセットとコードを公開し、さらなる研究を促進する計画です。