オープンワールドでのロボットマニピュレーションに向けた継続的ハンドアイキャリブレーション

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、未見のシーン変化に適応する際に生じる壊滅的忘却(catastrophic forgetting)を抑えるため、オープンワールドのロボットマニピュレーションに向けた継続的ハンドアイキャリブレーションの枠組みを提案する。
  • Spatial-Aware Replay Strategy(SARS)として、各シーンのポーズ空間を幾何学的に均一にカバーするリプレイバッファを構築し、冗長な隣接フレームを「情報量の最大」な視点で置き換える仕組みを示す。
  • Structure-Preserving Dual Distillation(SPDD)では、ローカライゼーション知識を「粗いシーンレイアウト」と「細かなポーズ精度」に分解し、それぞれを別々に蒸留することで、忘却を異なるレベルで抑制する。
  • 継続学習の流れでは、新しいシーンが到来したときにSARSが過去シーンから幾何学的に代表的なリハーサル用サンプルを供給し、SPDDが構造化した蒸留で過去知識を保持する一方、学習後に新シーンのサンプルをリプレイバッファへ追加して将来のリハーサルに備える。
  • 複数の公開データセットで実験を行い、本手法が「シーン忘却への耐性」を大きく改善し、過去シーンでの精度を維持しつつ新シーンへの適応も保てることを確認している。

Abstract

視覚的ローカライズによるハンド・アイ・キャリブレーションは、オープンワールド環境におけるロボットの操作にとって重要な機能である。しかしながら、ほとんどの深層学習ベースのキャリブレーションモデルは、オープンワールドのシーン変化の中で未見データへ適応する際に、壊滅的忘却(catastrophic forgetting)に悩まされる。一方で、単純なリハーサル(再学習)ベースの継続学習戦略では、この問題を十分に緩和できない。そこで本研究では、空間的リプレイ戦略と構造保持蒸留により、ロボットが連続的に遭遇するオープンワールドの操作シーンへ適応可能とする、継続的ハンド・アイ・キャリブレーションの枠組みを提案する。具体的には、Spatial-Aware Replay Strategy(SARS)は、各シーンの姿勢空間を包括的にカバーする幾何学的に一様なリプレイ・バッファを構築し、冗長な隣接フレームを、最大限に情報量の多い視点に置き換える。さらに、Structure-Preserving Dual Distillation(SPDD)を提案し、ローカライズの知識を粗いシーン配置と精密な姿勢推定に分解し、それらを別々に蒸留することで、継続的適応中の忘却の両方のタイプを緩和する。新しい操作シーンが到来すると、SARSは過去の全シーンから幾何学的に代表的なリプレイ・サンプルを提供し、SPDDはそれらのサンプルに対して構造化蒸留を適用することで、これまでに学習した知識を保持する。新シーンで学習した後、SARSは将来のリハーサルのために新シーンから選択したサンプルをリプレイ・バッファに組み込む。これにより、モデルは複数シーンにわたるキャリブレーション能力を継続的に蓄積できる。複数の公開データセットに対する実験では、シーン忘却に対する顕著な性能が示され、過去シーンでの精度を維持しつつ新シーンへの適応を損なわないことが確認され、提案枠組みの有効性が裏付けられた。