テスト時マッチング:マルチモーダルモデルにおける構成的推論を解き放つ

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルモデルの構成的推論を評価する既存ベンチマーク指標が、モデルの実力を体系的に過小評価している可能性があると主張し、モデルが確率的にランダム並みの成績に留まる例も示している。
  • 新しい評価として、能力をより適切に反映するとしてグループ・マッチングスコアを導入し、そのスコアでの正解は単純な過学習ステップによって既存指標での正解へと変換できることを示している。
  • この洞察をもとに、外部の教師データなしでモデル性能をブートストラップする反復的な自己改善アルゴリズム「Test-Time Matching(TTM)」を提案する。
  • 実験では新たな最良結果が報告されており、SigLIP-B16が先行結果を上回り、GPT-4.1ではWinogroundで推定上の人間性能を初めて上回ったほか、MMVP-VLMや生成的マルチモーダルモデルでも改善が確認されている。
  • TTMは16のデータセット派生(多様な設定)にわたって一貫して改善をもたらし、WhatsUpのような難しいベンチマークでは相対改善が最大85.7%に達し、指標由来の影響やグループ構造がない場合でも有効とされる。