AnyUser: スケッチされたユーザ意図を家庭用ロボットへ翻訳する

arXiv cs.RO / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • AnyUserは、カメラ画像上の自由形式スケッチ(必要に応じて言語も併用)を、家庭内タスクを実行可能な行動へ変換する統一的なマルチモーダル・ロボット指示システムとして提案されます。
  • 本手法は、空間的・意味的なプリミティブ、スケッチ/視覚/言語入力のためのマルチモーダル融合、そして階層型ポリシーを用いることで、事前の地図や事前学習モデルに依存せずに頑健な行動系列を生成します。
  • 評価では、大規模データセットに基づく定量ベンチマークにより、さまざまなシミュレーション家庭シーンにおいてスケッチベースの指示を正確に解釈できるかを検証します。
  • 実環境でのテストでは、2つのロボットプラットフォーム(固定型の7自由度支援用アーム:KUKA LBR iiwa、デュアルアームのモバイルマニピュレータ:Realman RMC-AIDAL)で、特定箇所の拭き取りやエリア清掃といったタスクに対して、確実なグラウンディングと実行が示されます。
  • 高齢者や技術リテラシーが低い人を含む多様な属性のユーザスタディでは、ユーザビリティとタスク指定の効率が向上し、完了率(85.7%–96.4%)が高く、ユーザ満足度も高いことが示されます。

Abstract

本稿では、カメラ画像上での自由形式のスケッチによる直感的な家庭内タスク指示(必要に応じて言語も併用)を通じて、家庭内タスクを行うための統一型ロボット指示システムであるAnyUserを提案する。AnyUserは、マルチモーダル入力(スケッチ、視覚、言語)を空間意味プリミティブとして解釈し、事前の地図やモデルを必要としない実行可能なロボット動作を生成する。新規性のある構成要素には、理解のためのマルチモーダル融合と、頑健な行動生成のための階層型ポリシーが含まれる。性能は、広範な評価によって有効性が示される:(1)大規模データセットに対する定量ベンチマークにより、様々なシミュレートされた家庭内環境において、多様なスケッチベースの指示を高精度に解釈できることを示す。(2)2つの異なるロボットプラットフォームでの実世界検証として、静置型の7自由度のアシスティブアーム(KUKA LBR iiwa)およびデュアルアームの移動型マニピュレータ(Realman RMC-AIDAL)で、対象箇所の拭き取りやエリアの清掃といった代表的タスクを実施し、物理環境において指示を根付かせ、確実に実行できる能力を確認する。(3)高齢者、非言語を模擬した人、低い技術リテラシーといった多様な属性を含む包括的なユーザースタディを行い、使いやすさとタスク指定の効率が大幅に改善されることを示す。タスク完了率は高く(85.7%-96.4%)、ユーザー満足度も得られた。AnyUserは、高度なロボット能力と、非専門家がアクセス可能なインタラクションを必要とするという課題のギャップを埋め、現実世界の人間環境に適応可能な実用的なアシスティブロボットの基盤を提供する。