Abstract
行動のクローン学習(BC)では、方策性能はデモンストレーションデータ品質によって本質的に制限されます。実世界のデータセットには、オペレータの熟練度の違い、遠隔操作(テレオペ)のアーティファクト、手順上の不一致などにより、品質がさまざまな軌跡が含まれます。それにもかかわらず、標準的なBCはすべてのデモを同等に扱います。既存のキュレーション手法は、ループ内で高コストな方策学習を要求するか、または手動アノテーションを必要とするため、スケーラビリティが制限されます。私たちは、軌跡の滑らかさに基づいてデモンストレーションにスコアを付ける軽量フレームワークであるRINSE(Ranking and INdexing Smooth Examples)を提案します。この手法は、ポリシーのアーキテクチャに依存せず、軌跡データのみで動作し、さらにTEDでは位相境界/接触(contact)信号を追加で使用します。熟練した運動の特徴である滑らかさを指標として確立する運動制御理論に基づき、RINSEは2つの相補的な指標を用います。スペクトル・アーク長(SAL)は周波数領域における規則性を測るスペクトル指標であり、軌跡エンベロープ距離(TED)は接触を考慮した空間的な幾何学的逸脱を測る指標です。滑らかさによるフィルタリングは、保持されたデータ分布の条件付き行動分散を低減でき、さらにその効果は、アクションのチャンク化や誤差の複合によって増幅され得ることを示します。RoboMimicのベンチマークでは、SALフィルタリングはデータの6分の1で16%高い成功率を達成します。実世界の操作では、TEDフィルタリングがデータの半分で20%の改善を達成します。LIBERO-10におけるSTRAP内のリトリーバル段階のフィルタとして、RINSEの再ランキングは平均成功率を5.6%改善します。Re-Mixドメイン再重み付けにおけるソフト重みとして、RINSEのスコアは学習済みのRe-Mix割り当てと高い相関を持つドメイン割り当てを生成します(Spearman
ho
geq 0.89)。これらの結果は、特にノイズや異種データの状況において、滑らかさがフィルタリング、リトリーバル、再重み付けの各設定にわたって有用な品質シグナルとなることを支持しています。