視覚言語モデルはアクションの質を判断できるのか?経験的評価

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、フィットネス、フィギュアスケート、ダイビングなど複数の活動にわたって、また異なるタスク設定・表現・プロンプト戦略のもとで、最先端の視覚言語モデルをアクション品質評価(AQA)に対して経験的に評価する。
  • ベースラインの結果では、主要モデル(Gemini 3.1 Pro、Qwen3-VL、InternVL3.5)はランダムな当てずっぽうをわずかに上回る程度にとどまり、微細な動作の質を評価する能力が限定的であることが示される。
  • スケルトン情報、グラウンディング(根拠付け)指示、推論構造、インコンテキスト学習といった手法を追加しても、得られる改善は断続的であり、常に有効な戦略は見つからない。
  • 分析により、2つの体系的な失敗バイアスが特定される。すなわち、視覚的証拠に関わらず正しい実行を過大に予測すること、そしてプロンプト文言の表面的な言い回しに過度に敏感であること、である。
  • これらのバイアスに対処するための対照的なタスク再定式化を行っても改善はわずかであり、著者らは、根本的な制約はプロンプトの枠組み以上に深いところにあり、実環境での展開の前に頑健な緩和策が必要だと結論づけている。

Abstract

アクション品質評価(AQA)は、理学療法、スポーツ指導、そして競技ジャッジングに幅広い応用があります。Vision Language Models(VLMs)はAQAに対して大きな可能性を持つものの、この領域における実際の性能はほとんど特徴づけられていません。本稿では、活動領域(例:フィットネス、フィギュアスケート、ダイビング)にまたがる、タスク、表現、そしてプロンプト戦略について、最先端のVLMを包括的に評価します。ベースライン結果では、Gemini 3.1 Pro、Qwen3-VL、InternVL3.5 の各モデルは、ランダム当て推量の水準をわずかに上回るにとどまっており、また、骨格情報の組み込み、グラウンディング指示、推論構造、インコンテキスト学習のような戦略によって個別の向上は得られるものの、いずれも一貫して有効ではありません。予測分布の分析により、2つの体系的バイアスが明らかになります。すなわち、視覚的な証拠に関わらず正しい実行を予測する傾向と、表面的な言語的枠組みに対する感度です。これらのバイアスを軽減するためにタスクを対比的に組み替えても改善はわずかであり、モデルの限界がこれらのバイアスを超えていること、すなわち、より微細な動作の品質評価に対する根本的な難しさを示唆します。本研究の結果は、今後のVLMベースのAQA研究のための厳密なベースラインを確立するとともに、信頼できる実世界展開の前に対処を要する失敗モードに関する実行可能なアウトラインを提供します。