要旨: 近年の視覚・言語モデル(VLMs)の進展は、ロボットのタスク計画に新たな可能性をもたらしましたが、これらのモデルはしばしば誤った行動シーケンスを生成します。これらの制限に対処するため、我々は、行動の実行可能性を検証しながらロボット計画にVLMsを統合する新しい枠組みであるVeriGraphを提案します。VeriGraphは、中間表現としてシーン・グラフを用い、重要な物体と空間関係を捉えることで、より信頼性の高い計画の検証と改良を可能にします。本システムは入力画像からシーン・グラフを生成し、LLMベースのタスク計画器によって生成された行動シーケンスを反復的に検査し、修正するためにそれを利用します。これにより、制約が遵守され、かつ行動が実行可能であることが保証されます。提案手法は、多様なマニピュレーション(操作)シナリオにおけるタスク完了率を大幅に向上させ、言語ベースのタスクでベースライン手法を58%上回り、タンタム・パズルのタスクで56%上回り、画像ベースのタスクで30%上回ります。定性的な結果とコードは https://verigraph-agent.github.io に掲載されています。
VeriGraph:実行可能性を検証するためのシーングラフによるロボット計画
arXiv cs.RO / 2026/4/20
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文では、ロボットのタスク計画にVLM(視覚言語モデル)を活用する「VeriGraph」を提案し、誤った行動列を生成しがちな既存課題に対処します。
- VeriGraphは、入力画像からシーングラフを生成する中間表現を用い、重要な対象物と空間関係を表現することで、より信頼性の高い検証を可能にします。
- 同システムは、LLMベースのタスクプランナーが出力した行動列を反復的に検査・修正し、実行可能性と制約遵守を担保します。
- 複数の操作シナリオにおける評価で、ベースラインより大幅に改善し、言語ベース課題で+58%、タンタムパズル課題で+56%、画像ベース課題で+30%の向上が示されます。
- 著者らは、コードと定性的結果をプロジェクトサイトで公開しています。



