[R] 長時間動画理解におけるVLMの振る舞い

Reddit r/MachineLearning / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この投稿では、既存の長時間動画理解データセット（例：Video-MME、MLVU、VideoBench、LongVideoBench）を比較し、順序付け、数え上げ、基本的な推論などの「カテゴリ中心」の課題が主に検証されていることを指摘する。
著者は、多段階の推論を重視する新しい長時間動画の問題を設計し、その結果、選択肢のない自由形式の生成が必要な回答ではVLMが失敗することを見いだす。
しかし、同じ問題を4つの選択肢からなるマルチプルチョイスとして言い換えると、同じVLMは100%の精度を達成する。
中心的に問われているのは、長時間動画理解において、オープンエンド（真値のみ）とマルチプルチョイス設定の間で、VLMの振る舞いがこれほど劇的に変わるのはなぜなのか、という点である。

私はVideo-MME、MLVU、VideoBench、LongVideoBenchなどの長い動画理解データセットについて、徹底的に調べてきました。そこで私が見たのは、これらのデータセットが、ドラマ、映画、テレビ番組、ドキュメンタリーといったさまざまなカテゴリに焦点を当てており、順序付け、数え上げ、推論などのタスクに取り組むことです。

私は多段階の推論があまり探究されていないと感じました。そこで私が行ったのは、選択肢なしの質問を設計して、グラウンドトゥルースのみを用意し、VLMに答えを出すよう依頼したことです。しかしVLMは答えを出せませんでした。ところが4つの選択肢を与えると、VLMは100%の精度を達成します。

私の主張は、なぜVLMはこのように振る舞うのかということです。

投稿者: /u/Alternative_Art2984
[リンク] [コメント]