SYMBOLIZER:VLMによる記号的・モデルフリーなタスク計画
arXiv cs.RO / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文はSYMBOLIZERを提案し、TAMPにおける手作りの離散的な記号モデルへの依存を減らすために、VLMを用いて画像から記号状態を推定する枠組みを示した。
- タスク固有の記号的アクションモデルを用意したり、事前に考え得る全ての対象物を列挙したりする代わりに、対象物間の関係を表す“リフティング述語”のみを使い、VLMの出力でそれらを画像からグラウンディングして状態表現を構築する。
- 計画は、目標数(goal-count)と幅ベース(width-based)のヒューリスティックを用いるドメイン非依存の探索で行い、学習済みまたは手作りのアクションモデルは不要とした。
- VLMでグラウンディングした状態空間上での記号的探索は、VLM単体での直接的な計画より高性能で、VLM由来のヒューリスティックを使う手法と同等の性能を示した。
- ProDGおよびViPlanのベンチマークで広範に評価した結果、未見の問題インスタンスや組合せ的に大きい状態空間を持つ領域に対して、最先端(SOTA)の結果を達成した。




