オープンワールドでのロボットマニピュレーションに向けた継続的ハンドアイキャリブレーション

arXiv cs.CV / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、未見のシーン変化に適応する際に生じる壊滅的忘却（catastrophic forgetting）を抑えるため、オープンワールドのロボットマニピュレーションに向けた継続的ハンドアイキャリブレーションの枠組みを提案する。
Spatial-Aware Replay Strategy（SARS）として、各シーンのポーズ空間を幾何学的に均一にカバーするリプレイバッファを構築し、冗長な隣接フレームを「情報量の最大」な視点で置き換える仕組みを示す。
Structure-Preserving Dual Distillation（SPDD）では、ローカライゼーション知識を「粗いシーンレイアウト」と「細かなポーズ精度」に分解し、それぞれを別々に蒸留することで、忘却を異なるレベルで抑制する。
継続学習の流れでは、新しいシーンが到来したときにSARSが過去シーンから幾何学的に代表的なリハーサル用サンプルを供給し、SPDDが構造化した蒸留で過去知識を保持する一方、学習後に新シーンのサンプルをリプレイバッファへ追加して将来のリハーサルに備える。
複数の公開データセットで実験を行い、本手法が「シーン忘却への耐性」を大きく改善し、過去シーンでの精度を維持しつつ新シーンへの適応も保てることを確認している。

Abstract

視覚的ローカライズによるハンド・アイ・キャリブレーションは、オープンワールド環境におけるロボットの操作にとって重要な機能である。しかしながら、ほとんどの深層学習ベースのキャリブレーションモデルは、オープンワールドのシーン変化の中で未見データへ適応する際に、壊滅的忘却（catastrophic forgetting）に悩まされる。一方で、単純なリハーサル（再学習）ベースの継続学習戦略では、この問題を十分に緩和できない。そこで本研究では、空間的リプレイ戦略と構造保持蒸留により、ロボットが連続的に遭遇するオープンワールドの操作シーンへ適応可能とする、継続的ハンド・アイ・キャリブレーションの枠組みを提案する。具体的には、Spatial-Aware Replay Strategy（SARS）は、各シーンの姿勢空間を包括的にカバーする幾何学的に一様なリプレイ・バッファを構築し、冗長な隣接フレームを、最大限に情報量の多い視点に置き換える。さらに、Structure-Preserving Dual Distillation（SPDD）を提案し、ローカライズの知識を粗いシーン配置と精密な姿勢推定に分解し、それらを別々に蒸留することで、継続的適応中の忘却の両方のタイプを緩和する。新しい操作シーンが到来すると、SARSは過去の全シーンから幾何学的に代表的なリプレイ・サンプルを提供し、SPDDはそれらのサンプルに対して構造化蒸留を適用することで、これまでに学習した知識を保持する。新シーンで学習した後、SARSは将来のリハーサルのために新シーンから選択したサンプルをリプレイ・バッファに組み込む。これにより、モデルは複数シーンにわたるキャリブレーション能力を継続的に蓄積できる。複数の公開データセットに対する実験では、シーン忘却に対する顕著な性能が示され、過去シーンでの精度を維持しつつ新シーンへの適応を損なわないことが確認され、提案枠組みの有効性が裏付けられた。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

オープンワールドでのロボットマニピュレーションに向けた継続的ハンドアイキャリブレーション

要点

Abstract

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer