AssemLM:ロボット組立のための空間推論マルチモーダル大規模言語モデル

arXiv cs.RO / 2026/4/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、微細な操作タスクに対して明示的な3D幾何学的推論を行うことでロボット組立を改善する、空間推論マルチモーダルLLM「AssemLM」を提案する。
  • AssemLMは、組立マニュアル、点群、およびテキストによる指示を組み合わせて、タスクにとって重要な6Dの組立姿勢を予測する。さらに、詳細な幾何学的・回転的特徴を捉えるための専用の点群エンコーダを用いる。
  • また、AssemBenchとして、新たに大規模なデータセット/ベンチマークを提示している。900K件以上のマルチモーダル・サンプルと、正確な6D姿勢アノテーションを含み、一般的な2Dまたはグラウンディング重視のベンチマークを超えて3D空間推論を評価する。
  • 実験結果として、さまざまな組立シナリオにおいて6D姿勢推論の最先端性能を達成したと報告しており、実ロボットでのテストでは現実環境下での微細・多段階な組立を支援できることが示されている。

Abstract

空間推論は、身体性のある知能にとって基礎的な能力であり、特にロボットの組立のような細粒度の操作タスクにおいて重要です。近年の視覚言語モデル(VLM)は、初歩的な空間的気づきを示すものの、主として粗い2次元(2D)の知覚に依存しており、精密な組立作業に不可欠な3次元(3D)幾何に対する正確な推論を行う能力が欠けています。この制約に対処するため、我々はロボット組立向けに特化した空間マルチモーダル大規模言語モデルであるAssemLMを提案します。AssemLMは、組立マニュアル、点群、およびテキスト指示を統合して、タスクにとって重要な6D組立姿勢を推論し予測できるようにし、組立プロセス全体を通じて明示的な幾何学的理解を可能にします。生の3D知覚と高レベルな推論を効果的に橋渡しするために、我々は細粒度の幾何学的特徴および回転特徴を捉える専用の点群エンコーダを採用し、その後それらをマルチモーダル言語モデルへ統合することで、組立タスクに対する正確な3D空間推論を支援します。さらに、我々は組立志向の空間推論のための、大規模データセットおよびベンチマークであるAssemBenchを構築します。AssemBenchは、正確な6D姿勢注釈を含む900K超のマルチモーダルサンプルで構成されています。AssemBenchは、空間推論の評価を2Dおよびグラウンディングのタスクを超えて、完全な3D幾何学的推論へと拡張し、既存の身体性AIベンチマークにおける重要なギャップを埋めます。大規模な実験により、AssemLMが多様な組立シナリオにおいて6D姿勢推論で最新の(state-of-the-art)性能を達成することが示されます。さらに、実ロボットでの評価では、我々のモデルが現実世界の環境において細粒度かつ複数ステップの組立実行を支援できることが示され、ロボット組立アプリケーションへの潜在力が実証されます。