CRIT：グラフベースの自動データ合成によるクロスモーダル多段（マルチホップ）推論の強化

arXiv cs.LG / 2026/4/3

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複数ステップにわたってテキストの文脈と視覚的証拠を結び付けることを必要とするタスクを構築することで、クロスモーダル多段（マルチホップ）推論をより適切に評価するための新しいデータセットおよびベンチマーク「CRIT」を提案する。
既存のマルチモーダルベンチマークや学習データは、単一モダリティの手掛かりに過度に依存していたり、画像とテキスト情報の相互の挿入（インタリービング）が弱かったりするため、補完的な多段推論が十分に強制されていない場合が多いと主張する。
CRITはグラフベースの自動パイプラインによって生成され、自然画像、動画、テキスト情報が豊富なソースなど、多様な領域をカバーし、より信頼性の高い評価を支えるために手動で検証されたテストセットを提供する。
実験結果は、最先端の視覚言語モデルであってもCRIT型の推論タスクでは性能が低いことを示しており、現行モデルの能力にはギャップがあることを浮き彫りにする。
CRITで学習すると、クロスモーダルな多段推論が大きく改善され、SPIQAだけでなく他の標準的なマルチモーダルベンチマークでも向上が得られる。

Abstract

現実世界での推論では、モダリティをまたいで情報を組み合わせ、テキストの文脈と視覚的手がかりを複数ホップのプロセスで結びつけることがしばしば必要になります。しかし、ほとんどのマルチモーダルのベンチマークは、この能力をうまく捉えられていません。多くの場合、単一の画像、または複数の画像の集合に依存しており、答えは単一のモダリティだけから推定できてしまいます。この制約は訓練データにも反映されており、画像とテキストが交互に配置されたコンテンツでは、補完的な複数ホップ推論がほとんど強制されません。その結果、視覚言語モデル（VLM）はしばしばハルシネーションを起こし、視覚的証拠に裏付けられていない推論の痕跡を生成してしまいます。このギャップを埋めるために、私たちはCRITを導入します。CRITは、新しいデータセットおよびベンチマークであり、グラフベースの自動パイプラインによって複雑なクロスモーダル推論タスクを生成するように構築されています。CRITは、自然画像、動画、テキストが豊富なソースといった多様なドメインから成り、信頼性の高い評価のための手動で検証されたテストセットを含みます。本ベンチマークでの実験では、最先端のモデルであっても、このような推論タスクでは苦戦することが明らかになりました。一方、CRITで訓練されたモデルは、SPIQAをはじめとする他の標準的なマルチモーダルベンチマークにおいて大幅な改善を示し、クロスモーダルの複数ホップ推論において大きな効果を得ています。