VeriGraph：実行可能性を検証するためのシーングラフによるロボット計画

arXiv cs.RO / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ロボットのタスク計画にVLM（視覚言語モデル）を活用する「VeriGraph」を提案し、誤った行動列を生成しがちな既存課題に対処します。
VeriGraphは、入力画像からシーングラフを生成する中間表現を用い、重要な対象物と空間関係を表現することで、より信頼性の高い検証を可能にします。
同システムは、LLMベースのタスクプランナーが出力した行動列を反復的に検査・修正し、実行可能性と制約遵守を担保します。
複数の操作シナリオにおける評価で、ベースラインより大幅に改善し、言語ベース課題で+58%、タンタムパズル課題で+56%、画像ベース課題で+30%の向上が示されます。
著者らは、コードと定性的結果をプロジェクトサイトで公開しています。

要旨: 近年の視覚・言語モデル（VLMs）の進展は、ロボットのタスク計画に新たな可能性をもたらしましたが、これらのモデルはしばしば誤った行動シーケンスを生成します。これらの制限に対処するため、我々は、行動の実行可能性を検証しながらロボット計画にVLMsを統合する新しい枠組みであるVeriGraphを提案します。VeriGraphは、中間表現としてシーン・グラフを用い、重要な物体と空間関係を捉えることで、より信頼性の高い計画の検証と改良を可能にします。本システムは入力画像からシーン・グラフを生成し、LLMベースのタスク計画器によって生成された行動シーケンスを反復的に検査し、修正するためにそれを利用します。これにより、制約が遵守され、かつ行動が実行可能であることが保証されます。提案手法は、多様なマニピュレーション（操作）シナリオにおけるタスク完了率を大幅に向上させ、言語ベースのタスクでベースライン手法を58%上回り、タンタム・パズルのタスクで56%上回り、画像ベースのタスクで30%上回ります。定性的な結果とコードは https://verigraph-agent.github.io に掲載されています。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

VeriGraph：実行可能性を検証するためのシーングラフによるロボット計画

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer