[R] VLMsに欠けているビデオベンチマークはどのようなものか？

Reddit r/MachineLearning / 2026/3/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

投稿は VideoMME、MLVU、MVBench、LVBench など、既存のビデオ言語モデルのベンチマークを挙げている。
VLMにはどのようなタイプのベンチマークが欠けているのか、またより物理的な能力やオープンワールドの能力を評価できるデータセットはどのようなものになり得るかを問う。
現在のデータセットを超えて、現実世界の物理性とオープンワールドの理解を強調するベンチマークの方向性を提案している。
Redditのユーザー Alternative_Art2984 によって書かれており、r/MachineLearning のディスカッションへリンクしている。

私は、VideoMME、MLVU、MVBench、LVBench など、動画用の VLM を評価するための多数のベンチマークを調べることに興味があります。

私はまだ、VLM のベンチマークにおいて何が欠けているのかを見極めているところです。例えば、どんなデータセットを作成すれば、より現実的でオープンワールドに近いものになるでしょうか。

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to