StateVLM:ロボティクスのアフォーダンス推論のための状態認識型ビジョン言語モデル

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • StateVLMは、ロボティクスのアフォーダンス推論向けに提案される状態認識型のビジョン言語モデルであり、物体検出や状態の局在化といった数値推論でのVLMの弱点に焦点を当てています。
  • 本論文では、ボックスデコーダの出力を用いて補助回帰損失(ARL)を計算し、推論時は通常のシーケンス予測を維持する微調整戦略を提案しています。
  • 数値推論を回帰タスクとして捉えることで、物体の正確な位置特定、状態、把持可能領域を含むきめ細かな物体表現の学習を目指します。
  • 物体状態に関する推論を評価するベンチマークが不足していることから、OSAR(Object State Affordance Reasoning)というオープンソースのベンチマークを新たに導入しています。1,172シーン、7,746体の物体、対応するバウンディングボックスを含みます。
  • 実験の結果、ARLの導入により、適応ベンチマークで平均1.6%の改善、OSARで平均5.2%の改善が得られ、複雑なアフォーダンス推論では出力の一貫性も向上します。

要旨: 視覚言語モデル(VLMs)は、視覚情報を認識し自然言語の指示を理解できるため、さまざまなロボティクス課題において目覚ましい性能を示してきました。しかし、ロボティクスに適用した場合も、VLMsは大規模言語モデル(LLMs)に固有に内在する根本的な制約の影響を受け続けます。すなわち、数値的推論、特に物体検出や物体状態のローカライズが苦手です。VLMsにおいて数値的推論を回帰タスクとして探究するために、物体検出および物体状態のローカライズにVLMsを適応させる新しい学習戦略を提案します。このアプローチでは、微調整の際にボックスデコーダの出力を用いて補助回帰損失(ARL)を計算しつつ、推論時には標準的な系列予測を維持します。この学習戦略を活用して、StateVLM(状態認識ビジョン言語モデル)を開発します。これは、物体の状態を含むきめ細かな物体表現を知覚し学習するために設計された新しいモデルであり、物体の正確なローカライズや、その状態、さらには把持可能な領域を含みます。物体状態に関するアフォーダンス推論のベンチマークが存在しないため、オープンソースのベンチマークである Object State Affordance Reasoning(OSAR)を導入します。OSARには、1,172のシーンと、7,746の個々の物体およびそれに対応するバウンディングボックスが含まれます。適応ベンチマーク(RefCOCO、RefCOCO+、および \mbox{RefCOCOg})における比較実験により、ARLはARLなしのモデルと比べて平均で1.6
%の性能向上をもたらすことが示されます。OSARベンチマークでの実験でもこの結果をさらに裏付けており、ARLを用いたStateVLMはARLなしのモデルより平均で5.2
%高い性能を達成します。特に、ARLはOSARにおけるアフォーダンス推論という複雑な課題においても重要であり、モデル出力の一貫性を高めます。