視覚運動拡散ポリシー学習のためのリアルタイム・オペレーター・テイクオーバー

arXiv cs.RO / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ライブの視覚運動（visuomotor）拡散ポリシーに対して人間のオペレーターが一時的に介入し、ロボットを望ましい挙動へ戻すことを可能にするリアルタイム・オペレーター・テイクオーバー（RTOT）手法を提案する。
本手法は、望ましくない状態からの回復と、目標に沿った是正デモンストレーションの両方をサポートし、その後は次の介入があるまで拡散ポリシーへ滑らかに制御が戻る。
著者らは、剛体・変形体・粒状物体を扱う複数のタスクにおいて、同数の初期デモンストレーションのみで学習する場合よりも、狙いを定めたテイクオーバー・デモンストレーションを追加する方が性能が向上することを示す。
本研究では、実行時のシグナルとしてマハラノビス距離を分析し、望ましくない、または分布外（out-of-distribution）の状態を自動的に検出する。
付録として、提供されたウェブサイトにプロジェクト資料（例：動画や実験）が公開されている。

要旨: 本論文では、オペレータがライブの視覚運動（visuomotor）拡散ポリシーをシームレスに引き継ぎ、望ましい状態へシステムを導く、あるいは狙った修正のデモンストレーションを提供できるようにする、リアルタイム・オペレータ・テイクオーバー（Real-Time Operator Takeover; RTOT）というパラダイムを提案します。この枠組みにおいて、オペレータはロボットの動作を修正するために介入でき、その後は、追加の介入が必要になるまでポリシーへ制御が滑らかに戻ります。我々は、このテイクオーバーの枠組みを、剛体・変形可能体・粒状体という3種類の対象にまたがるタスクで評価し、同等数の初期デモンストレーションのみで学習する場合と比べて、狙ったテイクオーバーのデモンストレーションを取り入れることでポリシー性能が大幅に向上することを示します。さらに、実行中に望ましくない、または分布外（out-of-distribution）の状態を自動的に識別するための信号としてのマハラノビス距離について、詳細な分析も提供します。初期デモンストレーションとテイクオーバーのデモンストレーションの動画、およびすべての実験を含むサポート資料は、プロジェクトのウェブサイトで入手可能です: https://operator-takeover.github.io/