BLaDA: 3DGSフィールドにおける機能的で巧みな行為へ言語を架橋する
arXiv cs.RO / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- BLaDAは、オープンボキャブラリの自然言語指示を、非構造化3D環境において解釈可能で機能的に巧みな把持行動へ変換する提案のゼロショットフレームワークである。
- 本手法では、知識誘導型言語パース(KLP)モジュールを用いてテキストを操作制約の構造化された6項組(sextuple)へ変換し、エンドツーエンドVLAアプローチと比べて意味の明瞭さを高める。
- 意味とポーズの密な対応のために、TriLocationを導入し、3D Gaussian Splattingに基づく三角形の幾何学的制約を用いて、ポーズ整合的な機能領域のローカライズを行う。
- さらに、意味-幾何学的制約を、キーポイントから把持への実行モジュール(KGT3D+)によって、物理的にもっともらしい手首ポーズと指レベルのコマンドへと変換する。
- 実験では、複数のカテゴリとタスクにわたり、アフォーダンスのグラウンディング精度および機能的操作の成功率において、先行手法に対して大幅な向上が報告されており、コードは一般公開の予定である。




