概要: ロボティック・パーセプションのモデルは、散らかり、遮蔽、新規の物体インスタンスといった分布外(out-of-distribution)の条件により、実環境に展開するとしばしば機能しません。既存の手法は、このギャップに対してオフラインでデータを収集し再学習することで対応していますが、これは遅く、展開時(deployment-time)の失敗を解決しません。我々は、野外(in the wild)でロボットのパーセプションを適応させるための、失敗駆動型の対話的ティーチング・フレームワークである iTeach を提案します。展開中、近接して配置された人間がモデルの予測を観察し、失敗事例を特定したうえで、短い人と物体のインタラクション(HumanPlay)を行い、RGB-D シーケンスを記録しながら情報量の高い物体配置(オブジェクト構成)を露出させます。注釈(アノテーション)の労力を最小化するために、iTeach は Few-Shot Semi-Supervised(FS3)ラベリング戦略を採用します。この戦略では、短いインタラクション・シーケンスの最終フレームのみを、ハンズフリーの視線誘導(eye-gaze)と音声コマンドを用いて注釈し、そのラベルを動画全体に伝播させることで密な教師信号(dense supervision)を生成します。収集された失敗駆動のサンプルは、反復的な微調整(fine-tuning)に用いられ、パーセプション・モデルの展開時適応を段階的に可能にします。我々は、事前学習済みの MSMFormer モデルから開始し、未見の物体インスタンス分割(UOIS)に対して iTeach を評価します。少数の失敗駆動サンプルによって、提案手法は多様な実世界のシーンにおける分割性能を大幅に向上させます。これらの改善は、SceneReplica ベンチマークにおける把持(grasping)およびピック&プレース(pick-and-place)の成功率の向上、ならびに実ロボット実験の成功率の向上へと直接つながります。本結果は、失敗駆動型で近接配置された対話的ティーチングが、ロボットのパーセプションを野外で効率的に適応させ、下流の操作(manipulation)性能を改善することを示しています。プロジェクトページ: https://irvlutd.github.io/iTeach
iTeach:失敗駆動の適応のための、実環境における対話型ロボット知覚ティーチング
arXiv cs.RO / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- iTeachは、ロボットの知覚モデルが現場の分布外(散らかり、遮蔽、未知の物体など)で失敗した際に、デプロイ中にその失敗を人と共同で収集・学習へつなげる「失敗駆動の対話型ティーチング」フレームワークを提案しています。
- 実運用の場で人がモデルの予測を見ながら失敗例を特定し、短時間のHumanPlay(人と物体の相互作用)を行ってRGB-D動画を記録することで、役に立つ物体配置の情報を効率的に取得します。
- ラベリング負荷を下げるため、FS3(Few-Shot Semi-Supervised)により、短い相互作用列の最終フレームのみを視線入力と音声指示で注釈し、そのラベルを動画全体へ伝播して密な教師信号を生成します。
- 未見の物体インスタンスセグメンテーション(UOIS)で、少数の失敗駆動サンプルから反復微調整することで、pretrained MSMFormerからの初期状態でも多様な実環境でセグメンテーション性能が大きく向上します。
- 改善はSceneReplicaでの把持・ピッキング/配置(pick-and-place)成功率の向上や、実ロボット実験の結果として下流のマニピュレーション性能にも直接反映されます。




