視覚言語モデルはアクションの質を判断できるのか?経験的評価
arXiv cs.CL / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、フィットネス、フィギュアスケート、ダイビングなど複数の活動にわたって、また異なるタスク設定・表現・プロンプト戦略のもとで、最先端の視覚言語モデルをアクション品質評価(AQA)に対して経験的に評価する。
- ベースラインの結果では、主要モデル(Gemini 3.1 Pro、Qwen3-VL、InternVL3.5)はランダムな当てずっぽうをわずかに上回る程度にとどまり、微細な動作の質を評価する能力が限定的であることが示される。
- スケルトン情報、グラウンディング(根拠付け)指示、推論構造、インコンテキスト学習といった手法を追加しても、得られる改善は断続的であり、常に有効な戦略は見つからない。
- 分析により、2つの体系的な失敗バイアスが特定される。すなわち、視覚的証拠に関わらず正しい実行を過大に予測すること、そしてプロンプト文言の表面的な言い回しに過度に敏感であること、である。
- これらのバイアスに対処するための対照的なタスク再定式化を行っても改善はわずかであり、著者らは、根本的な制約はプロンプトの枠組み以上に深いところにあり、実環境での展開の前に頑健な緩和策が必要だと結論づけている。



