人間の動画からロボットを学習させる:調査(サーベイ)

arXiv cs.CV / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • このサーベイは、身体性のあるAIとロボティクスにおける大きなボトルネックとして「ロボットデータのスケール」の難しさを挙げ、人間の動画に基づく学習がそれを解決する有望な手段であると強調している。
  • ロボティクスのポリシー学習の基礎をレビューし、人間の動画をロボット学習に取り込むための主要なインターフェースも整理している。
  • 人間の動画をロボットのスキルへ移転する方法について、タスク指向・観測指向・行動指向の経路に基づく階層的タクソノミーを提案し、データ構成や学習パラダイムとの結びつきを横断的に分析している。
  • データ基盤として、よく使われる人間動画データセットや動画生成手法を調べ、データセット作成・利用に関する大規模な統計トレンドも示している。
  • 最後に、この分野に内在する主要な課題と限界を明確にし、今後の研究の方向性を提示している。
  • さらに、関連文献の最新のキュレーションはGitHubリポジトリ(リンク先)で提供されている。

Abstract

体型化されたAIやロボティクスのさらなる発展を妨げる重大なボトルネックは、ロボットデータをスケールさせる課題です。これに対処するため、人間のビデオデータからロボット操作スキルを学習するという分野は、近年、人間の活動動画が豊富であることやコンピュータビジョンの進歩に後押しされ、急速に注目を集めています。この研究の流れは、人間によるデモンストレーションという広大で即利用可能な資源から、ロボットが受動的にスキルを獲得できるようにすることを約束し、汎用ロボットシステムに対するスケーラブルな学習を大幅に促進します。そこで本調査では、ロボティクスにおける人間ビデオに基づく学習手法について、ヒト-ロボットのスキル移転とデータ基盤の両方に焦点を当て、包括的かつ最新のレビューを提供します。まずロボティクスにおける方策学習の基礎を概観し、その後、人間のビデオを取り込むための基本的なインターフェースについて説明します。続いて、人間のビデオをロボットのスキルへ移転するための階層的なタクソノミーを導入します。ここでは、タスク指向・観測指向・行動指向の経路を扱い、さらに、異なるデータ構成および学習パラダイムとの結びつきについて、家族横断の分析を行います。加えて、広く用いられる人間ビデオデータセットやビデオ生成の枠組みを含むデータ基盤を調査し、データセット開発と利用における大規模な統計的トレンドを提示します。最終的に、本分野に内在する課題と限界を強調し、将来の研究に向けた潜在的な方向性を示します。なお、本調査の論文リストは https://github.com/IRMVLab/awesome-robot-learning-from-human-videos で公開しています。