私は、VideoMME、MLVU、MVBench、LVBench など、動画用の VLM を評価するための多数のベンチマークを調べることに興味があります。
私はまだ、VLM のベンチマークにおいて何が欠けているのかを見極めているところです。例えば、どんなデータセットを作成すれば、より現実的でオープンワールドに近いものになるでしょうか。
[リンク] [コメント]
Reddit r/MachineLearning / 2026/3/17
私は、VideoMME、MLVU、MVBench、LVBench など、動画用の VLM を評価するための多数のベンチマークを調べることに興味があります。
私はまだ、VLM のベンチマークにおいて何が欠けているのかを見極めているところです。例えば、どんなデータセットを作成すれば、より現実的でオープンワールドに近いものになるでしょうか。