要旨: モバイル・マニピュレータは、人間中心の環境で作業を行うためにますます導入されている。こうした作業を完了する一方で、周囲の人々に対して、表現力のあるロボットの振る舞いを通じて意図を伝えることもできるべきである。表現力のあるロボット振る舞いに関する先行研究では、あらかじめプログラムされた、またはデモンストレーションから学習した表現的な動作、ならびに大規模言語モデルによって生成された高レベルのインタラクションが用いられてきた。これら既存のアプローチの大半は、作業実行中にユーザがロボットの行動を中断したり、変更したり、別の方向へ誘導したりし得る、人とロボットのインタラクション(HRI)を考慮していなかった。本論文では、共同のHRIタスク中に表現力のあるロボット振る舞いを生成するために、視覚言語モデルに基づく知覚と言語による会話的推論のための高レベル言語ガイド型プランナと、低レベルの視覚言語アクション方策を統合する新規フレームワークExpressMMを開発する。さらにExpressMMは、ユーザによる更新またはリダイレクト指示に対応するための割り込み可能なインタラクションをサポートする。モバイル・マニピュレータを用いて、人間を支援する共同組み立てのシナリオにおいてExpressMMをデモンストレーションし、ライブのHRIデモに対して観客ベースの評価を行う。アンケート結果は、ExpressMMによって可能になった表現力のある振る舞いが、社会的に適切で理解しやすいインタラクションを支援しつつ、観察者がロボットの行動と意図を明確に解釈できるようにしたことを示している。参加者はまた、デモンストレーション中にロボットが協調タスクに有用であり、予測可能で安全な振る舞いを示したと報告しており、共同タスクにおけるロボットの有用性、安全性、予測可能性に対する肯定的な認識を促した。
ExpressMM:人とロボットの相互作用における表現力豊かなモバイル操作行動
arXiv cs.RO / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、協調作業中のモバイルマニピュレータが表現力のある行動を生成するための枠組みであるExpressMMを提案し、近くにいる人々へ意図を伝えることを目的とする。
- ExpressMMは、知覚と会話的な推論に視野言語モデルを用いた高レベルの言語ガイド付きプランナと、タスクに適した表現力のある動きを生成するための低レベルの視野言語アクション方策を組み合わせる。
- 主要な貢献として、実行中にユーザがロボットの行動を変更・誘導できる割り込み可能な相互作用のサポートを挙げる。固定された行動やデモンストレーションのみへの依存ではなく、途中での修正を可能にする。
- 著者らは、協調的組立のためのモバイルマニピュレータで提案手法を検証する。そこでは、ライブの観客参加型HRIデモンストレーションに加え、知覚された解釈可能性・安全性・予測可能性を質問紙で評価する。




