Good in Bad(GiB):エンドユーザーのデモンストレーションから学習に適したポリシーを探し出す

arXiv cs.RO / 2026/5/5

📰 ニュースModels & Research

要点

  • 本論文は、イミテーションラーニングにおける重要な課題として、非専門家のユーザーから収集されるデモンストレーションには誤りが混じりやすく、それが安全でないロボット挙動につながり得る点を扱っています。
  • GiB(Good-in-Bad)は、デモンストレーション全体を捨てるのではなく、誤ったサブタスクだけを自動的に特定して除外し、高品質な部分は保持することで学習データを改善するアルゴリズムです。
  • GiBは二段階の手法で構成されており、自己教師ありで潜在特徴を学習したうえで、各セグメントを「良い/悪い」の二値でラベル付けします。
  • 次に、良質セグメントの潜在特徴の分布をモデル化し、マハラノビス距離を用いて低品質なサブタスクを検出・評価します。
  • 実験ではFrankaロボットのシミュレーションおよび実環境の多段タスクで、品質が混在した人手デモから学習したときにポリシー性能が向上することを示しています。

概要: 模倣学習は、ロボットが人間の利用者から多様なスキルを獲得できるようにするための有望な枠組みを提供します。しかし、ほとんどの模倣学習アルゴリズムは、高品質なデモンストレーションへのアクセスがあることを前提としています。これは、非専門家の利用者からデータを収集する際には非現実的な期待です。そのような利用者のデモンストレーションには、不注意による誤りが含まれていることがしばしばあります。このようなデモンストレーションから素朴に学習すると安全でない方策(ポリシー)の挙動につながり得ます。一方で、ときおり起きる間違いを理由にデモンストレーション全体を破棄してしまうと、特にデータが少ない状況では貴重なデータを浪費してしまいます。本研究では、デモンストレーションの中から高品質な下位タスク(subtasks)を保持しつつ、誤った下位タスクを自動的に特定して破棄するアルゴリズムであるGiB(Good-in-Bad)を提案します。フィルタリングされたデータは、その後、任意の方策学習アルゴリズムで用いられ、より頑健な方策を訓練できます。GiBはまず、潜在特徴を学習するための自己教師ありモデルを訓練し、各デモンストレーションを良い(good)または悪い(bad)としてラベル付けするための2値重みを割り当てます。次に、高品質なセグメントの潜在特徴の分布をモデル化し、マハラノビス距離を用いて質の低い下位タスクを検出し、その評価を行います。シミュレーションおよび現実世界のマルチステップ課題の両方において、FrankaロボットでGiBを検証し、品質が混在した人間のデモンストレーションから学習する場合に方策性能が向上することを示します。