私はVideo-MME、MLVU、VideoBench、LongVideoBenchなどの長い動画理解データセットについて、徹底的に調べてきました。そこで私が見たのは、これらのデータセットが、ドラマ、映画、テレビ番組、ドキュメンタリーといったさまざまなカテゴリに焦点を当てており、順序付け、数え上げ、推論などのタスクに取り組むことです。
私は多段階の推論があまり探究されていないと感じました。そこで私が行ったのは、選択肢なしの質問を設計して、グラウンドトゥルースのみを用意し、VLMに答えを出すよう依頼したことです。しかしVLMは答えを出せませんでした。ところが4つの選択肢を与えると、VLMは100%の精度を達成します。
私の主張は、なぜVLMはこのように振る舞うのかということです。
[リンク] [コメント]



