GaLa:ハイパーグラフに導かれる手続き型計画のための視覚言語モデル

arXiv cs.RO / 2026/4/21

📰 ニュースModels & Research

要点

  • 本論文は、複雑なシーンにおける機能的な空間関係の理解が難しいという課題に対処する、マルチモーダル手続き型計画のための視覚言語フレームワーク「GaLa」を提案します。
  • GaLaはハイパーグラフ表現を用い、画像内のオブジェクト実体をノードとして扱い、属性と機能的セマンティクスに基づいてオブジェクトを集約して領域レベルのハイパーエッジを構成します。
  • TriView HyperGraph Encoderを設計し、ノード視点・領域視点・ノードと領域の対応視点の間でセマンティクスの整合性をコントラスト学習で強制することで、ハイパーグラフの意味を下流のVLM推論へより効果的に注入します。
  • ActPlan1KおよびALFREDベンチマークでの実験では、GaLaが既存手法よりも実行成功率、LCS、計画の正しさの各指標で大きく上回ることが示されます。
  • 全体として、VLMの推論だけに頼る比重を下げ、マルチモーダルデータから得られる構造化された意味情報と空間情報を明示的に計画へ取り込む点が特徴です。

Abstract

埋め込み空間関係と、物体属性に符号化された深い意味構造は、身体性のあるAIシステムにおける手続き的計画(プロシージャルプランニング)にとって重要です。しかし、既存のアプローチはしばしば、視と言語のモデル(VLM)そのものの推論能力に過度に依存する一方で、多モーダル入力から掘り起こし得る豊かな構造化意味情報を見落としています。その結果、モデルは複雑なシーンにおける機能的な空間関係を効果的に理解するのが難しくなっています。多モーダルデータに含まれる暗黙の空間関係と深い意味構造を十分に活用するために、本研究ではGaLa(GaLa)という、多モーダル手続き的計画のための視と言語フレームワークを提案します。GaLaでは、ハイパーグラフに基づく表現を導入し、画像内の物体インスタンスをノードとしてモデル化し、属性と機能的セマンティクスに基づいて物体を集約することで、領域レベルのハイパーエッジを構築します。この設計により、物体間の暗黙的な意味関係と、機能領域の階層的な組織化の両方を明示的に捉えます。さらに、コントラスティブ学習を通じて、ノード視点、領域視点、ノード-領域対応視点の間で意味の一貫性を強制する「TriView HyperGraph Encoder」を設計し、ハイパーグラフの意味論を下流のVLM推論へより効果的に注入できるようにします。ActPlan1KおよびALFREDベンチマークに対する大規模な実験により、GaLaが実行成功率、LCS、計画の正確性の観点で、既存手法を大幅に上回ることが示されています。