HandVQA：視覚言語モデルにおける手の細かな空間推論を診断し、改善する

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

HandVQAは、関節で可動する手のポーズに関する細かな空間推論について、視覚言語モデルの性能を測定するための、大規模な診断用ベンチマークとして導入されます。
このベンチマークは高品質な3D手データセットから構築されており、角度、距離、相対位置といった関節レベルの空間属性を対象にした、1.6M+の多肢選択式ビジュアル質問応答（Visual Question Answering）項目を含みます。
LLaVAを含む複数の最先端VLMに対する評価では、指の部位の幻覚、幾何学的解釈の誤り、汎化の弱さといった体系的な失敗モードが示されています。
著者らは、HandVQAを通じて学習された3Dに基づく空間知識がゼロショットで転移し、手のジェスチャ認識（+10.33%）や手と物体のインタラクション（+2.63%）を含む下流タスクを改善することを報告しています。

AI Business

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to