CRIT:グラフベースの自動データ合成によるクロスモーダル多段(マルチホップ)推論の強化
arXiv cs.LG / 2026/4/3
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、複数ステップにわたってテキストの文脈と視覚的証拠を結び付けることを必要とするタスクを構築することで、クロスモーダル多段(マルチホップ)推論をより適切に評価するための新しいデータセットおよびベンチマーク「CRIT」を提案する。
- 既存のマルチモーダルベンチマークや学習データは、単一モダリティの手掛かりに過度に依存していたり、画像とテキスト情報の相互の挿入(インタリービング)が弱かったりするため、補完的な多段推論が十分に強制されていない場合が多いと主張する。
- CRITはグラフベースの自動パイプラインによって生成され、自然画像、動画、テキスト情報が豊富なソースなど、多様な領域をカバーし、より信頼性の高い評価を支えるために手動で検証されたテストセットを提供する。
- 実験結果は、最先端の視覚言語モデルであってもCRIT型の推論タスクでは性能が低いことを示しており、現行モデルの能力にはギャップがあることを浮き彫りにする。
- CRITで学習すると、クロスモーダルな多段推論が大きく改善され、SPIQAだけでなく他の標準的なマルチモーダルベンチマークでも向上が得られる。




