ロボットによる物体検出と把持タスクにおけるヒトロボット協調のためのマルチモーダル知覚・言語グラウンディング・制御のアブレーション研究

arXiv cs.RO / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルなヒトロボット協調システムについて、エンドツーエンド性能に大きく影響する3つのモジュール（行動抽出のためのLLM、視覚的グラウンディングのための知覚系、実行のためのモーションコントローラ）に焦点を当てた制御されたアブレーション研究を示します。
パイプライン全体を作り直すのではなく、共通の実験プロトコルのもとで各コンポーネントの寄与を切り分け、そのうえで有望な組み合わせをエンドツーエンドで評価します。
言語モデルを3種類、知覚構成を5種類、コントローラを3種類比較し、さらに最良候補に対して第2段階の要因計画（ファクトリアル）実験を行います。
分析の目的は、どの設計選択が主に実行時間に効くのか、主に成功率に効くのかを明らかにし、将来の改良で最大の工学的改善が見込める箇所を特定することです。

Abstract

本稿は、我々の先行するマルチモーダルな人とロボットのインタラクションシステムを拡張し、エンドツーエンド性能に最も強く影響する3つのモジュールについて制御されたアブレーション（寄与度の切り分け）研究を導入する。目的は、完全なパイプラインを再設計することではなく、共通の実験プロトコルの下で各コンポーネントの寄与を分離し、そのうえでエンドツーエンドで最良の組み合わせを評価することである。そこで、本稿ではまず3つの言語モデル、5つの知覚（パーセプション）構成、3つのコントローラを比較し、その後に最良の候補に対して第2段階の因子計画（ファクトリアル）研究を行う。得られた分析は、どの選択が主に実行時間に影響し、どの選択が主に成功率に影響するのか、またシステムの今後の改訂において最大の工学的改善がどこに生じそうかを明確化することを意図している。