大規模な人間のデモンストレーションからロボット操作のための人間の意図の事前知識を学習する

arXiv cs.RO / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、人間のデモンストレーションからロボット操作向けの、身体性に依存しない人間の意図（intention）事前知識を学習する階層型の枠組みMoT-HRAを提案している。
新たにHA-2.2M（2.2Mエピソード）のアクション・言語データセットを導入し、異種の人間動画をハンド中心のフィルタリング、空間再構成、時間的セグメンテーション、言語アラインメントで再構築している。
MoT-HRAは操作を3つの連携するエキスパートに分解し、(1) 3D軌道を予測する視覚・言語エキスパート、(2) MANOスタイルの潜在手動作事前知識を学習する意図エキスパート、(3) 意図を踏まえた表現からロボットの行動チャンクへ変換するファインチューナを用いる。
共有アテンショントランクに加え、read-onlyのキー・バリュー転送を設計することで、下流の制御が人間の事前知識を活用しつつ、上流表現への干渉を抑える方針を採っている。
手の動作生成、シミュレーションでの操作、実機ロボットでのタスクの実験結果から、モーションのもっともらしさと分布シフト下での頑健な制御が改善することが示されている。

Dev.to

Dev.to

Dev.to

Dev.to

Dev.to