PushupBench:VLMは腕立て伏せの回数カウントが得意ではない

arXiv cs.CV / 2026/4/28

📰 ニュースSignals & Early TrendsModels & Research

要点

  • この論文は、既存のビジョン言語モデル(VLM)は動画の内容(何が起きているか)を理解できても、腕立て伏せのような「正確な反復回数のカウント」には苦手だと主張しています。
  • 回数カウントに特化した評価用データセット「PushupBench」を新たに提案し、446本の長尺クリップ(平均36.7秒)で構成されています。
  • 最良のフロンティアモデルは正確率42.1%に到達する一方、オープンソースの4Bモデルはおよそ~6%であり、カウント能力には大きな開きがあることが示されています。
  • 著者らは、弱いモデルが「時間的推論」ではなく「モード(最頻の回数)」に依存してしまうため、精度だけでは誤解を招き得ると示しています。
  • さらに、腕立て伏せのカウントで1kサンプルのみ微調整すると、MVBenchやPerceptionTest、TVBenchなどの一般的な動画理解ベンチマークが改善し、「カウント」がより広い時間的推論の代理指標になり得ることを示唆しています。

要旨: 大規模な視覚言語モデル(VLM)は、動画中で extit{何が} 起きているかは認識できますが、 extit{何回} 起きているかを数え上げることはできません。反復カウントを評価するための 446 本の長尺動画クリップ(平均 36.7 秒)である extbf{PushupBench} を提案します。最良の最先端モデルは 42.1\% の完全一致精度を達成します;オープンソースの 4B モデルは 6\% 程度のスコアで、教師ありベースラインと一致します。精度だけでは誤解を招くことを示します――より弱いモデルは時間的に推論するのではなく、モーダル(最頻)の回数を利用します。1k サンプルでカウントを微調整すると、一般的な動画理解へ転移します:MVBench(+2.15)、PerceptionTest(+1.88)、TVBench(+4.54)であり、カウントがより広範な時間的推論の代理指標であることを示唆します。PushupBench は
\texttt{lmms-eval}(https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262)に組み込まれており、(pushupbench.com/)でホストされています。