PushupBench：VLMは腕立て伏せの回数カウントが得意ではない

arXiv cs.CV / 2026/4/28

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

この論文は、既存のビジョン言語モデル（VLM）は動画の内容（何が起きているか）を理解できても、腕立て伏せのような「正確な反復回数のカウント」には苦手だと主張しています。
回数カウントに特化した評価用データセット「PushupBench」を新たに提案し、446本の長尺クリップ（平均36.7秒）で構成されています。
最良のフロンティアモデルは正確率42.1%に到達する一方、オープンソースの4Bモデルはおよそ~6%であり、カウント能力には大きな開きがあることが示されています。
著者らは、弱いモデルが「時間的推論」ではなく「モード（最頻の回数）」に依存してしまうため、精度だけでは誤解を招き得ると示しています。
さらに、腕立て伏せのカウントで1kサンプルのみ微調整すると、MVBenchやPerceptionTest、TVBenchなどの一般的な動画理解ベンチマークが改善し、「カウント」がより広い時間的推論の代理指標になり得ることを示唆しています。

要旨: 大規模な視覚言語モデル（VLM）は、動画中で extit{何が} 起きているかは認識できますが、 extit{何回} 起きているかを数え上げることはできません。反復カウントを評価するための 446 本の長尺動画クリップ（平均 36.7 秒）である extbf{PushupBench} を提案します。最良の最先端モデルは 42.1\% の完全一致精度を達成します；オープンソースの 4B モデルは $$ 6\% 程度のスコアで、教師ありベースラインと一致します。精度だけでは誤解を招くことを示します――より弱いモデルは時間的に推論するのではなく、モーダル（最頻）の回数を利用します。1k サンプルでカウントを微調整すると、一般的な動画理解へ転移します：MVBench（+2.15）、PerceptionTest（+1.88）、TVBench（+4.54）であり、カウントがより広範な時間的推論の代理指標であることを示唆します。PushupBench は
\texttt{lmms-eval}（https://github.com/EvolvingLMMs-Lab/lmms-eval/pull/1262）に組み込まれており、（pushupbench.com/）でホストされています。

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

Dev.to

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

Dev.to

多くの人がAIを「Googleのように」使うからダメになる—その理由

Dev.to

PushupBench：VLMは腕立て伏せの回数カウントが得意ではない

要点

関連記事

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

光電融合、新プレーヤー・新技術が続々データセンター省電力化

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

多くの人がAIを「Googleのように」使うからダメになる—その理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

光電融合、新プレーヤー・新技術が続々 データセンター省電力化

生成エンジン最適化（GEO）とは何か、そしてなぜ今SEOチームに必要なのか

インドの開発者：2026年に資金ゼロでAIの副収入を作る方法

多くの人がAIを「Googleのように」使うからダメになる—その理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合、新プレーヤー・新技術が続々データセンター省電力化