模倣学習におけるデータ品質測定のための効率的な指標

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、実世界でロボットに模倣学習を展開する際の主要な課題である「分布外（OOD）シナリオ」を扱い、エンドユーザーのデモが振動や急な修正動作などの低品質な挙動を含みがちである点を問題視しています。
デモ軌跡のパワースペクトル密度（PSD）に基づく、高速かつ完全自動のデモ順位付け指標を提案し、PSDが低いほど滑らかで高品質なデモであると定義します。
既存の自動キュレーション手法が環境内でのポリシーロールアウトを必要とするのに対し、PSD指標は学習（ポリシー学習）、環境との相互作用、専門家ラベリングを不要にします。
2つのベンチマークデータセットと、介護施設にいる高齢者を対象にしたユーザースタディで評価した結果、PSDで選別したデモは、未選別データおよび競合する2つのデータ順位付け手法よりも、タスク成功率が高く実行軌跡が滑らかになることが示されます。
PSDで選別したデータを用いて事前学習ポリシー（π0.5）を日常動作タスクに対して微調整する、現場での微調整手順で有効性が示されています。

要旨: 強化学習の一種である模倣学習（IL）は目覚ましい進展を遂げているものの、ILを用いたロボットの実環境への展開はいまだに、分布外（OOD）シナリオという課題によって妨げられています。この課題に対処する有望な戦略として、展開環境で収集されたエンドユーザーのデモンストレーションを用いて、事前学習済みポリシーを微調整する方法があります。しかし、エンドユーザーのデモンストレーションはしばしば質が低く、過度な修正動作、振動、急な調整といった特徴を伴い、学習したポリシーおよび微調整後のポリシーの両方の性能を低下させます。デモデータを選別する既存の自動化手法では、環境におけるポリシーのロールアウトが必要であるため、計算コストが高く、現実の展開には不向きです。本論文では、デモンストレーション軌跡のパワースペクトル密度（PSD）に基づく、迅速かつ効率的で完全自動のデモンストレーションランキング指標を提案します。PSD指標は、ポリシー学習、環境との相互作用、専門家によるラベリングを一切必要とせず、大規模かつ現場でのデータ選別に適しています。PSDの値が低いほどより滑らかで高品質なデモンストレーションに対応し、PSDの値が高い場合は、衝動的でアーティファクトを含む軌跡を示します。提案指標を、専門家および素人ユーザーのデモンストレーションからなる2つのベンチマーク模倣学習データセットで評価し、さらに高齢者施設におけるユーザースタディでも検証します。ここでは収集されたデモンストレーションを用いて、日常生活タスクのために $i0.5$ ime{\cite{intelligence2025pi_}} を微調整します（ $i0.5$ は論文中のポリシーを指します）。結果は、PSDによって選別されたデータが、選別なしのベースラインおよび2つの競合するデータ選別手法と比べて、より高いタスク成功率と、より滑らかな実行軌跡をもつポリシーをもたらすことを示しています。