GaLa:ハイパーグラフに導かれる手続き型計画のための視覚言語モデル
arXiv cs.RO / 2026/4/21
📰 ニュースModels & Research
要点
- 本論文は、複雑なシーンにおける機能的な空間関係の理解が難しいという課題に対処する、マルチモーダル手続き型計画のための視覚言語フレームワーク「GaLa」を提案します。
- GaLaはハイパーグラフ表現を用い、画像内のオブジェクト実体をノードとして扱い、属性と機能的セマンティクスに基づいてオブジェクトを集約して領域レベルのハイパーエッジを構成します。
- TriView HyperGraph Encoderを設計し、ノード視点・領域視点・ノードと領域の対応視点の間でセマンティクスの整合性をコントラスト学習で強制することで、ハイパーグラフの意味を下流のVLM推論へより効果的に注入します。
- ActPlan1KおよびALFREDベンチマークでの実験では、GaLaが既存手法よりも実行成功率、LCS、計画の正しさの各指標で大きく上回ることが示されます。
- 全体として、VLMの推論だけに頼る比重を下げ、マルチモーダルデータから得られる構造化された意味情報と空間情報を明示的に計画へ取り込む点が特徴です。
関連記事

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA
Grok-2 Mini と Grok-3(mini)はどこにあるのか?
Reddit r/LocalLLaMA