視覚言語モデルから合成の神経記号的教師信号によって構造化されたロボット方策を学習する

arXiv cs.RO / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚言語モデル(VLM)を特化して、ブラックボックス的なエンドツーエンドの視覚運動制御ではなく、解釈可能で実行可能な構造化ロボット方策を生成できるようにする、神経記号的手法を提案する。
  • 構造化された表現として行動ツリ—(Behavior Tree)方策を用い、多モーダルの視覚観測、自然言語による指示、および形式的なシステム仕様に基づいて意思決定を基礎づける。
  • 手作業による高コストなラベリングを避けるため、著者らは、領域ランダム化された合成のマルチモーダル環境を作成し、基盤モデル(foundation models)によって生成される「指示→方策」の事例と組にする自動化された合成教師信号パイプラインを導入する。
  • 2台のロボット・マニピュレータに関する実験では、合成の教師信号のみから学習した方策が、実機ロボットへ正常に転移できると報告されている。
  • 全体として、本研究は、基盤モデルを適応してモジュール化され安全性に配慮したロボット行動方策を生成し、高次元学習と記号的制御をつなぐことができると主張している。