AI Navigate

[R] VLMsに欠けているビデオベンチマークはどのようなものか?

Reddit r/MachineLearning / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 投稿は VideoMME、MLVU、MVBench、LVBench など、既存のビデオ言語モデルのベンチマークを挙げている。
  • VLMにはどのようなタイプのベンチマークが欠けているのか、またより物理的な能力やオープンワールドの能力を評価できるデータセットはどのようなものになり得るかを問う。
  • 現在のデータセットを超えて、現実世界の物理性とオープンワールドの理解を強調するベンチマークの方向性を提案している。
  • Redditのユーザー Alternative_Art2984 によって書かれており、r/MachineLearning のディスカッションへリンクしている。

私は、VideoMME、MLVU、MVBench、LVBench など、動画用の VLM を評価するための多数のベンチマークを調べることに興味があります。

私はまだ、VLM のベンチマークにおいて何が欠けているのかを見極めているところです。例えば、どんなデータセットを作成すれば、より現実的でオープンワールドに近いものになるでしょうか。

submitted by /u/Alternative_Art2984
[リンク] [コメント]