要旨: 視覚言語モデル(VLM)が、視覚・時間的・テキスト上の手がかりを包括的に理解することは極めて重要である。しかし、多模態モデリングの分野では急速な進歩があったにもかかわらず、動画理解の性能は依然としてテキストベースの推論に後れを取っている。本研究では、この遅れがこれまで想定されていたよりもさらに深刻であることを見出した。一般に広く報告されている長尺動画理解のベンチマークには、テキスト上の手がかりだけで回答できる質問が40〜60%含まれている。さらに、これらの問題は広く用いられているポストトレーニング用データセットにも同様に広く存在しており、ポストトレーニングによってVLMの動画理解性能を向上させる能力を損なっている可能性がある。この観察に導かれ、我々はシンプルでありながら効果的な解決策としてVidGroundを提案する。ポストトレーニング時に、言語的なバイアスを一切加えず、実際に視覚に基づく(grounded)質問のみを用いるのである。RLベースのポストトレーニング手法と組み合わせると、この単純な手法は、完全なデータセットを用いる場合と比べて最大6.2ポイント向上し、同時に元のポストトレーニングデータの69.1%だけで済む。加えて、単純なポストトレーニングアルゴリズムによるデータキュレーションが、いくつかのより複雑なポストトレーニング手法を上回ることを示し、VLMにおける動画理解の改善に向けたボトルネックがデータ品質であることを強調する。これらの結果は、より能力の高いVLMの開発を前進させるために、真に視覚に基づく理解を必要とするポストトレーニングデータと評価ベンチマークを慎重にキュレーションすることの重要性を裏付けている。プロジェクトページ: http://vidground.etuagi.com。
回答する前に見る:視覚的に根拠づけられたポストトレーニングからの学習
arXiv cs.CL / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在の視覚言語モデル(VLM)の動画理解が想定より弱いのは、多くの長尺動画ベンチマーク(さらにはポストトレーニング用データセット)に、テキストの手がかりだけで答えられる質問が40〜60%含まれているためだと主張する。
- この「言語的ショートカット」の問題は、視覚的なグラウンディングを改善することを目的としたポストトレーニングの有効性を損なう可能性がある。なぜなら、モデルが動画内容ではなく言語に依存することを学んでしまうからである。
- これに対処するため、著者らはVidGroundというデータキュレーション/ポストトレーニング手法を提案する。これは、真に視覚的に根拠づけられた質問のみを保持し、言語バイアスを除去する。
- RLベースのポストトレーニングと組み合わせることで、VidGroundは(バイアスを含む)元のデータセットで学習する場合に比べて動画理解を最大6.2ポイント改善する一方、元のポストトレーニングデータの69.1%のみを使用する。
- 本研究は、データキュレーションの品質が重要なボトルネックであると結論づけており、より単純なキュレーションと素直なポストトレーニングアルゴリズムが、いくつかのより複雑なアプローチを上回ることを示す。




