BLaDA: 3DGSフィールドにおける機能的で巧みな行為へ言語を架橋する

arXiv cs.RO / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

BLaDAは、オープンボキャブラリの自然言語指示を、非構造化3D環境において解釈可能で機能的に巧みな把持行動へ変換する提案のゼロショットフレームワークである。
本手法では、知識誘導型言語パース（KLP）モジュールを用いてテキストを操作制約の構造化された6項組（sextuple）へ変換し、エンドツーエンドVLAアプローチと比べて意味の明瞭さを高める。
意味とポーズの密な対応のために、TriLocationを導入し、3D Gaussian Splattingに基づく三角形の幾何学的制約を用いて、ポーズ整合的な機能領域のローカライズを行う。
さらに、意味-幾何学的制約を、キーポイントから把持への実行モジュール（KGT3D+）によって、物理的にもっともらしい手首ポーズと指レベルのコマンドへと変換する。
実験では、複数のカテゴリとタスクにわたり、アフォーダンスのグラウンディング精度および機能的操作の成功率において、先行手法に対して大幅な向上が報告されており、コードは一般公開の予定である。

Abstract

構造化されていない環境では、機能的で器用な把持を実現するには、意味理解、精密な3D機能的ローカライゼーション、そして物理的に解釈可能な実行を密に統合することが求められる。モジュール型の階層的手法は、エンドツーエンドのVLAアプローチよりも制御しやすく、解釈可能であるが、既存の手法はいまだに事前に定義されたアフォーダンスラベルに依存しており、機能的な器用操作に必要な、意味とポーズの緊密な結合が欠けている。これに対処するため、我々はBLaDA（Bridging Language to Dexterous Actions in 3DGS fields）を提案する。BLaDAは、解釈可能なゼロショットフレームワークであり、オープンボキャブラリの指示を、機能的で器用な操作のための知覚制約および制御制約として実世界に根付かせる（グラウンディングする）。BLaDAは、自然言語をKnowledge-guided Language Parsing（KLP）モジュールを通じて、操作制約の構造化された6つ組（sextuple）へ最初にパースすることで、解釈可能な推論チェーンを確立する。ポーズ整合的な空間推論を達成するために、Triangular Functional Point Localization（TriLocation）モジュールを導入する。このモジュールは、連続的なシーン表現として3D Gaussian Splattingを利用し、三角形の幾何学的制約の下で機能的領域を特定する。最後に、3D Keypoint Grasp Matrix Transformation Execution（KGT3D+）モジュールが、これらの意味—幾何学的制約を、物理的にもっともらしい手首のポーズと指レベルのコマンドへデコードする。複雑なベンチマークに対する大規模な実験により、BLaDAは、アフォーダンス・グラウンディング精度と、多様なカテゴリおよびタスクにわたる機能的操作の成功率の両面で、既存手法を大幅に上回ることが示される。コードは https://github.com/PopeyePxx/BLaDA で公開予定である。