AssemLM:ロボット組立のための空間推論マルチモーダル大規模言語モデル
arXiv cs.RO / 2026/4/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、微細な操作タスクに対して明示的な3D幾何学的推論を行うことでロボット組立を改善する、空間推論マルチモーダルLLM「AssemLM」を提案する。
- AssemLMは、組立マニュアル、点群、およびテキストによる指示を組み合わせて、タスクにとって重要な6Dの組立姿勢を予測する。さらに、詳細な幾何学的・回転的特徴を捉えるための専用の点群エンコーダを用いる。
- また、AssemBenchとして、新たに大規模なデータセット/ベンチマークを提示している。900K件以上のマルチモーダル・サンプルと、正確な6D姿勢アノテーションを含み、一般的な2Dまたはグラウンディング重視のベンチマークを超えて3D空間推論を評価する。
- 実験結果として、さまざまな組立シナリオにおいて6D姿勢推論の最先端性能を達成したと報告しており、実ロボットでのテストでは現実環境下での微細・多段階な組立を支援できることが示されている。

