高速ビジョンは人の動作のゼロショット意味理解を改善する

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、ラベル付きデータを十分に集めにくい状況でも重要となる、人の動作を動画から捉えてゼロショットで意味理解する際に、時間分解能（フレームレート）がどう影響するかを調査しています。
事前学習済みのビデオ言語モデルで意味表現を作り、LLM（大規模言語モデル）によるペア比較推論を行うことで、タスク固有の追加学習なしで動作理解を行うトレーニング不要のパイプラインを提案します。
速くて微細な動きが特徴の剣道を対象に、120 Hz／60 Hz／30 Hzで比較した実験では、高いフレームレートほど素早い動作における意味の区別（セマンティック・セパラビリティ）が大きく向上することが示されます。
さらに、人の関節情報の追跡に基づく手がかりが、全観測と部分観測の両条件でどのように機能するかも分析し、最近傍クラス・プロトタイプ戦略による定量評価で、高速動画がより安定で解釈しやすい意味表現をもたらすと報告しています。
これらの結果は、時間的な忠実度を高めることが、特に速くて細かな動きで、タスク固有学習なしのゼロショット動作認識能力を高めうることを示唆しています。

Anthropic News

日経XTECH

The Verge

Dev.to

Dev.to