データ効率の高いロボット模倣学習のためのマルチカメラ視点スケーリング

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボット模倣学習における重要なボトルネックを扱っている。すなわち、エキスパートのデモンストレーションに多様性が欠けると、ポリシーの汎化性能が低下する一方で、環境をまたいだ多様な軌跡を収集することは費用がかかり難しい。
人手の追加を必要とせず、各エキスパート軌跡に対してマルチカメラの視点をスケーリングすることで学習の多様性を高める、データ効率の高い枠組みを提案する。これにより、擬似デモンストレーションを実質的に生成する。
著者らは、異なるアクション空間の選択が視点スケーリングとどのように相互作用するかを調査し、カメラ空間表現やより豊かなマルチビューの多様性によって、視覚特徴の不変性をさらに向上できることを示す。
複数カメラで学習したポリシーを、単一視点入力でも効果的に運用できるようにする、マルチビューのアクション統合手法を導入する。
シミュレーションと実環境での操作タスクの両方で、単一視点の模倣学習ベースラインに比べて、データ効率と汎化の面で大きな改善が得られることを実験により示す。さらに、追加されるハードウェアの複雑さは最小限である。

要旨: ロボットによる操作における模倣学習ポリシーの一般化能力は、専門家デモンストレーションの多様性によって根本的に制約されます。一方で、さまざまな環境からデモンストレーションを収集することは、実際にはコストが高く困難です。本論文では、デモンストレーション収集時にカメラ視点をスケールすることで、追加の人手を要さずに内在するシーンの多様性を活用する、実用的な枠組みを提案します。より多くの軌跡を獲得する代わりに、各専門家軌跡から擬似デモンストレーションを生成するために、複数の同期されたカメラ視点を用います。これにより学習分布が拡充され、視覚表現における視点不変性が向上します。さらに、異なる行動空間が視点スケーリングとどのように相互作用するかを分析し、カメラ空間表現が多様性を一層高めることを示します。加えて、マルチビューの行動集約手法を導入し、単一視点ポリシーが運用時に複数のカメラを活用できるようにします。シミュレーションおよび実環境での操作タスクにおける大規模な実験により、単一視点のベースラインと比べてデータ効率と一般化の両面で大きな改善が示されます。本結果は、カメラ視点のスケーリングが、模倣学習に対して最小限の追加ハードウェア構成で済み、既存の模倣学習アルゴリズムにシームレスに統合できる、実用的でスケーラブルな解決策であることを示唆しています。プロジェクトのウェブサイトは https://yichen928.github.io/robot_multiview です。

Black Hat Asia

AI Business

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

日経XTECH

三井住友FGが新中計を発表、IT投資3年で1兆円規模 AI活用加速

日経XTECH

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

Reddit r/LocalLLaMA

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

Dev.to

データ効率の高いロボット模倣学習のためのマルチカメラ視点スケーリング

要点

関連記事

Black Hat Asia

柴田社長肝いり「Renesas 365」姿現す、将来はAIエージェントと連携

三井住友FGが新中計を発表、IT投資3年で1兆円規模 AI活用加速

Bonsai（PrismMLのQwen3 8B/4B/1.7Bの1ビット版）はエイプリルフールの冗談ではなかった

大手テック企業はAI投資と統合を加速している一方、規制当局と企業は安全性と責任ある導入に注目している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer