Good in Bad（GiB）：エンドユーザーのデモンストレーションから学習に適したポリシーを探し出す

arXiv cs.RO / 2026/5/5

📰 ニュースModels & Research

共有:

要点

本論文は、イミテーションラーニングにおける重要な課題として、非専門家のユーザーから収集されるデモンストレーションには誤りが混じりやすく、それが安全でないロボット挙動につながり得る点を扱っています。
GiB（Good-in-Bad）は、デモンストレーション全体を捨てるのではなく、誤ったサブタスクだけを自動的に特定して除外し、高品質な部分は保持することで学習データを改善するアルゴリズムです。
GiBは二段階の手法で構成されており、自己教師ありで潜在特徴を学習したうえで、各セグメントを「良い／悪い」の二値でラベル付けします。
次に、良質セグメントの潜在特徴の分布をモデル化し、マハラノビス距離を用いて低品質なサブタスクを検出・評価します。
実験ではFrankaロボットのシミュレーションおよび実環境の多段タスクで、品質が混在した人手デモから学習したときにポリシー性能が向上することを示しています。

概要: 模倣学習は、ロボットが人間の利用者から多様なスキルを獲得できるようにするための有望な枠組みを提供します。しかし、ほとんどの模倣学習アルゴリズムは、高品質なデモンストレーションへのアクセスがあることを前提としています。これは、非専門家の利用者からデータを収集する際には非現実的な期待です。そのような利用者のデモンストレーションには、不注意による誤りが含まれていることがしばしばあります。このようなデモンストレーションから素朴に学習すると安全でない方策（ポリシー）の挙動につながり得ます。一方で、ときおり起きる間違いを理由にデモンストレーション全体を破棄してしまうと、特にデータが少ない状況では貴重なデータを浪費してしまいます。本研究では、デモンストレーションの中から高品質な下位タスク（subtasks）を保持しつつ、誤った下位タスクを自動的に特定して破棄するアルゴリズムであるGiB（Good-in-Bad）を提案します。フィルタリングされたデータは、その後、任意の方策学習アルゴリズムで用いられ、より頑健な方策を訓練できます。GiBはまず、潜在特徴を学習するための自己教師ありモデルを訓練し、各デモンストレーションを良い（good）または悪い（bad）としてラベル付けするための2値重みを割り当てます。次に、高品質なセグメントの潜在特徴の分布をモデル化し、マハラノビス距離を用いて質の低い下位タスクを検出し、その評価を行います。シミュレーションおよび現実世界のマルチステップ課題の両方において、FrankaロボットでGiBを検証し、品質が混在した人間のデモンストレーションから学習する場合に方策性能が向上することを示します。

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Dev.to

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

Dev.to

Nano Banana Pro vs DALL-E 3 vs Midjourney：3つを実際に使っている人による実用的な比較

Dev.to

LLMが86本の人間のエッセイを“どの人間著者の領域にもない意味クラスタ”へ編集した

Reddit r/MachineLearning

機械学習とNLPによるフェイクニュース検出

Dev.to

Good in Bad（GiB）：エンドユーザーのデモンストレーションから学習に適したポリシーを探し出す

要点

関連記事

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

Nano Banana Pro vs DALL-E 3 vs Midjourney：3つを実際に使っている人による実用的な比較

LLMが86本の人間のエッセイを“どの人間著者の領域にもない意味クラスタ”へ編集した

機械学習とNLPによるフェイクニュース検出

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer