広告

HandVQA:視覚言語モデルにおける手の細かな空間推論を診断し、改善する

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • HandVQAは、関節で可動する手のポーズに関する細かな空間推論について、視覚言語モデルの性能を測定するための、大規模な診断用ベンチマークとして導入されます。
  • このベンチマークは高品質な3D手データセットから構築されており、角度、距離、相対位置といった関節レベルの空間属性を対象にした、1.6M+の多肢選択式ビジュアル質問応答(Visual Question Answering)項目を含みます。
  • LLaVAを含む複数の最先端VLMに対する評価では、指の部位の幻覚、幾何学的解釈の誤り、汎化の弱さといった体系的な失敗モードが示されています。
  • 著者らは、HandVQAを通じて学習された3Dに基づく空間知識がゼロショットで転移し、手のジェスチャ認識(+10.33%)や手と物体のインタラクション(+2.63%)を含む下流タスクを改善することを報告しています。

広告