VeriGraph:実行可能性を検証するためのシーングラフによるロボット計画

arXiv cs.RO / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、ロボットのタスク計画にVLM(視覚言語モデル)を活用する「VeriGraph」を提案し、誤った行動列を生成しがちな既存課題に対処します。
  • VeriGraphは、入力画像からシーングラフを生成する中間表現を用い、重要な対象物と空間関係を表現することで、より信頼性の高い検証を可能にします。
  • 同システムは、LLMベースのタスクプランナーが出力した行動列を反復的に検査・修正し、実行可能性と制約遵守を担保します。
  • 複数の操作シナリオにおける評価で、ベースラインより大幅に改善し、言語ベース課題で+58%、タンタムパズル課題で+56%、画像ベース課題で+30%の向上が示されます。
  • 著者らは、コードと定性的結果をプロジェクトサイトで公開しています。

要旨: 近年の視覚・言語モデル(VLMs)の進展は、ロボットのタスク計画に新たな可能性をもたらしましたが、これらのモデルはしばしば誤った行動シーケンスを生成します。これらの制限に対処するため、我々は、行動の実行可能性を検証しながらロボット計画にVLMsを統合する新しい枠組みであるVeriGraphを提案します。VeriGraphは、中間表現としてシーン・グラフを用い、重要な物体と空間関係を捉えることで、より信頼性の高い計画の検証と改良を可能にします。本システムは入力画像からシーン・グラフを生成し、LLMベースのタスク計画器によって生成された行動シーケンスを反復的に検査し、修正するためにそれを利用します。これにより、制約が遵守され、かつ行動が実行可能であることが保証されます。提案手法は、多様なマニピュレーション(操作)シナリオにおけるタスク完了率を大幅に向上させ、言語ベースのタスクでベースライン手法を58%上回り、タンタム・パズルのタスクで56%上回り、画像ベースのタスクで30%上回ります。定性的な結果とコードは https://verigraph-agent.github.io に掲載されています。