非ヒューマノイド型ロボットのためのVLM駆動セマンティック・アフォーダンス推論の評価

arXiv cs.RO / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、非ヒューマノイド型のロボット形態に対して、視覚言語モデル（VLM）がアフォーダンスを推論できるかを検証し、これまで十分に調べられていなかった領域を扱っています。
実世界で注釈された「アフォーダンス–対象物」の関係と、VLMが生成した合成シナリオを組み合わせたハイブリッド・データセットを新たに構築し、対象カテゴリやロボット形態を跨いだ実験を行いました。
その結果、VLMは非ヒューマノイド型へ一定の汎化を示す一方で、オブジェクト領域（対象物ドメイン）によってアフォーダンス推論の性能が大きく変動することが分かりました。
すべてのロボット形態と対象カテゴリにわたって、誤りの傾向が一貫しており、「偽陽性が低いが偽陰性が高い」ため、アフォーダンス予測が保守的になることが示されています。
この保守性は特に、新規な道具の使用シナリオや、型にはまらない対象物の操作で顕著であり、低い偽陽性による安全性メリットを保ちつつ過度に慎重な挙動を抑えるには、補完的なアプローチが必要だと示唆されます。

概要: 　視覚言語モデル（VLM）は、人と物体の相互作用を理解するうえで目覚ましい能力を示してきましたが、非ヒューマノイドな形態をもつロボットシステムへの適用はいまだ十分に探究されていません。本研究は、VLMが、人間とは根本的に異なる身体（エンボディメント）を備えたロボットに対して、アフォーダンスを効果的に推論できるかどうかを調査し、これらのモデルを多様なロボット応用へ展開する際の重要なギャップに取り組みます。本研究では、注釈付きの実世界ロボットのアフォーダンス—物体関係と、VLMによって生成された合成シナリオを組み合わせる新しいハイブリッドデータセットを導入し、複数の物体カテゴリおよびロボット形態にわたるVLM性能の実証的分析を行いました。その結果、アフォーダンス推論能力には顕著なばらつきがあることが明らかになりました。実験により、VLMが非ヒューマノイドなロボット形状に対して有望な汎化を示す一方で、異なる物体領域にまたがる性能は特に一貫性に欠けることが示されました。重要な点として、すべての形態および物体カテゴリにおいて、誤検出（false positive）率が低い一方で誤りなしで見逃す（false negative）率が高い、という一貫したパターンを特定しました。これは、VLMがアフォーダンス予測において保守的（慎重）な傾向を持つことを示しています。本分析から、このパターンは、とりわけ新規な道具の使用シナリオや、型にはまらない物体操作において顕著であることが分かります。したがって、ロボットシステムにVLMを効果的に統合するには、誤検出率の低さによる本質的な安全性の利点を維持しつつ、過度に保守的な挙動を緩和するための補完的アプローチが必要であることが示唆されます。