SG-CoT: シーングラフ表現を用いた曖昧さを考慮したロボット計画フレームワーク

arXiv cs.RO / 2026/3/23

💬 オピニオンModels & Research

要点

  • SG-CoT は、LLM ベースのロボット計画を構造化されたシーングラフに基づいてグラウンディングする二段階のフレームワークを提案し、曖昧さの扱いを改善します。
  • このフレームワークは観察からシーングラフを構築し、オブジェクト、属性、およびオブジェクト間の関係を符号化して、LLM の推論をグラウンディングします。
  • LLM に、シーングラフの関連部分を検索する機能と、曖昧さの源を特定する機能を装備させ、ユーザーや他のロボットに対して的確な曖昧さ解消の質問を行えるようにします。
  • 実験結果は、質問の正確性が少なくとも10%向上し、マルチエージェントの成功率が最大で15%向上することを示しており、信頼性と汎化性の向上を示しています。

要旨:曖昧性は、ロボットプランナーとして用いられる大規模言語モデル(LLMs)にとって大きな課題となる。本稿では、Scene Graph-Chain-of-Thought(SG-CoT)を提案します。これは二段階のフレームワークで、LLMsが環境のシーングラフ表現を反復的に照会し、曖昧さを検出・明確化するものです。まず、入力観測から環境の構造化シーングラフ表現を構築し、物体、属性、および他の物体との関係を捕捉します。次に、LLMには提供された指示に関連するシーングラフの一部を照会する検索機能が搭載されます。これにより、LLMの推論プロセスが観測に基づくものとなり、曖昧な状況下でのロボットプランナーの信頼性を高めます。SG-CoTはまた、曖昧さの源を特定し、ユーザーまたは他のロボットに対して適切な解消の質問を提起することを可能にします。広範な実験により、SG-CoTは従来の手法を一貫して上回ることが示されました。質問の正確さは最低でも10%改善し、単一エージェント環境での成功率は最低4%、マルチエージェント環境で最低15%の増加を示し、より一般化可能なロボット計画の有効性が検証されます。