HiVLA：視覚に基づく中心的な階層型エンボディド操作システム

arXiv cs.CV / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、微調整（ファインチューニング）時に基盤となる視覚言語モデル（VLM）の推論を劣化させないように、高レベルの意味論的計画と低レベルのモータ制御を分離する、階層型の視覚に基づく中心的（visual-grounded-centric）エンボディド操作システムであるHiVLAを提案する。
高レベル段階では、VLMプランナがタスク分解と視覚グラウンディングを実行し、下位タスクの指示と対象のバウンディングボックスを含む構造化された計画を出力する。
低レベルの実行では、HiVLAはフローマッチング（flow-matching）の拡散トランスフォーマ（DiT）による行動エキスパートを用い、カスケードされたクロスアテンション機構によってグローバル文脈、対象中心のクロップ、スキルの意味論を統合し、頑健な行動生成を行う。
シミュレーションおよび実環境の双方での実験により、HiVLAがエンドツーエンドのVLAベースラインを大幅に上回ることが報告されており、とりわけ長いホライズンでのスキル合成や、雑然とした環境における小物体の操作で強みを示す。
提案する分離型アーキテクチャは、時間の経過とともに計画・行動各コンポーネントを独立に改善できる一方で、基盤VLMのゼロショット推論を維持することを目的として設計されている。

概要: end-to-endのVision-Language-Action（VLA）モデルはロボット操作に向けた有望なパラダイムを提供しますが、狭い制御データでそれらを微調整すると、基盤となるVision-Languageモデル（VLM）から継承された深い推論能力がしばしば損なわれます。この根本的なトレードオフを解決するために、我々はHiVLA（HiVLA）を提案します。HiVLAは、視覚に基づくことを中心とした階層的フレームワークであり、高レベルの意味論的計画と低レベルのモータ制御を明示的に切り離します。高レベル部分では、VLMプランナーがまずタスク分解と視覚的グラウンディングを実行し、サブタスクの指示と正確な目標境界ボックスからなる構造化された計画を生成します。次に、この計画を物理的な行動へと変換するために、低レベル部分に、独自のカスケード型クロスアテンション機構を備えたフローマッチング拡散トランスフォーマ（flow-matching Diffusion Transformer：DiT）の行動エキスパートを導入します。この設計により、グローバルな文脈、高解像度の対象中心のクロップ、スキルのセマンティクスを順次に融合し、DiTが頑健な実行に純粋に集中できるようにします。この切り離されたアーキテクチャは、VLMのゼロショット推論を維持しつつ、両コンポーネントを独立に改善できるようにします。シミュレーションおよび実環境での大規模な実験により、HiVLAが最先端のend-to-endベースラインを大幅に上回ること、特に長期ホライゾンにおけるスキル合成や、散らかったシーンにおける小さな物体のきめ細かな操作で顕著に優れていることが示されました。