Rewind-IL:模倣学習におけるオンライン失敗検出と状態リスポーン

arXiv cs.RO / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • Rewind-ILは、生成的な行動チャンク型ポリシーを用いる模倣学習システムの信頼性問題に対処するために、失敗時のオンライン安全策として提案されており、特に実行がデモンストレーションの分布から逸れた際の回復不能に焦点を当てています。
  • TIDE(Temporal Inter-chunk Discrepancy Estimate)に基づくゼロショットの失敗検出器を用い、split conformal predictionで判断をキャリブレーションすることで、良性の特徴変化による誤検知を抑える狙いがあります。
  • 失敗を検出すると、「state respawning(状態リスポーン)」により、ロボットをセマンティックに検証された安全な中間状態へ巻き戻してから、クリーンなポリシー状態で推論を再開します。
  • 事前に、視覚言語モデルでデモンストレーションから回復チェックポイントを同定し、凍結したポリシーエンコーダでコンパクトな特徴DBを作成して、オンライン時に実行とチェックポイントを照合します。
  • 長期ホライズンの実環境・シミュレーションのマニピュレーション課題(flow-matchingの行動チャンク型ポリシーへの転移を含む)で、ポリシー内部の一貫性チェックと意味に基づく回復を組み合わせることで堅牢性が向上することが示されています。

要旨: イミテーション学習により、ロボットはデモンストレーションから複雑な視覚運動操作スキルを獲得できるようになったが、特に長い地平の行動をチャンク化するポリシーでは、運用時の失敗が依然として大きな障害である。実行がデモンストレーションのマニフォールドから逸脱すると、これらのポリシーはしばしば、局所的にはもっともらしい行動を生成し続けるものの、その失敗から回復することができない。既存のランタイムモニタは、失敗データを必要とするか、良性の特徴ドリフトに対して過剰に発火してしまうか、あるいは回復メカニズムを提供せずに失敗検出で停止してしまう。そこで本研究では、生成的な行動チャンク化ポリシー向けの、学習なしのオンライン安全策フレームワークであるRewind-ILを提案する。Rewind-ILは、分割適合予測によって校正された、Temporal Inter-chunk Discrepancy Estimate(TIDE)に基づくゼロショットの失敗検出器と、ロボットを意味論的に検証された安全な中間状態へと戻す状態再スポーン(state-respawning)メカニズムを組み合わせる。オフラインでは、視覚言語モデルがデモンストレーション内の回復チェックポイントを同定し、凍結したポリシーエンコーダを用いてコンパクトなチェックポイント特徴データベースを構築する。オンラインでは、Rewind-ILは、重なり合う行動チャンクにおける自己整合性を監視し、チェックポイントライブラリとの類似度を追跡し、失敗が起きた場合には、最新の検証済みの安全状態へと実行を巻き戻したうえで、クリーンなポリシー状態から推論を再開する。現実世界およびシミュレーション環境での長い地平の操作タスクでの実験、ならびにフローマッチングに基づく行動チャンク化ポリシーへの転移では、意味論に根ざした再スポーンと結び付いたポリシー内部の整合性が、模倣学習における信頼性向上への実用的な道筋を提供することを示している。補足資料は https://sjay05.github.io/rewind-il で入手可能です