ベストから学ぶ:模倣学習におけるデータ品質のための滑らかさ駆動指標

arXiv cs.RO / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本記事は、行動克服(BC)がデモデータの品質に本質的に制約される点を指摘し、現実のデータセットでは操作者の熟練度、テレオペレーション由来のアーティファクト、手順の不整合などにより軌跡の品質がばらつくことを述べています。
  • その上で、RINSE(Ranking and INdexing Smooth Examples)を提案し、方策のアーキテクチャに依存しない軽量な枠組みとして、軌跡データのみからデモをスコアリングします。指標としては、周波数領域の規則性を測るSpectral Arc Length(SAL)と、接触を考慮した幾何学的な逸脱を測るTrajectory-Envelope Distance(TED)を用い、TEDは位相・接触信号も活用します。
  • 滑らかさに基づくフィルタリングにより、保持されたデータ分布の条件付き行動分散が低減できることを示しており、その効果はアクションのチャンク化や誤差の増幅(compounding)といった手法でさらに強まる可能性があります。
  • 実験結果として、RoboMimicではSALフィルタリングがデータの6分の1だけで成功率を16%向上させ、現実のマニピュレーションではTEDフィルタリングがデータの半分で20%改善します。さらに、LIBERO-10におけるSTRAPでの検索段階フィルタとして使うと平均成功率が5.6%向上します。
  • さらにRINSEスコアをRe-Mixのドメイン再重み付けにソフトウェイトとして用いた場合、学習された配分と強く一致する配分が得られ(Spearman ρ ≥ 0.89)、滑らかさがノイズや異質性のあるデータ領域でも、フィルタリング・検索・再重み付けの各場面で有用な品質シグナルであることを示唆します。

Abstract

行動のクローン学習(BC)では、方策性能はデモンストレーションデータ品質によって本質的に制限されます。実世界のデータセットには、オペレータの熟練度の違い、遠隔操作(テレオペ)のアーティファクト、手順上の不一致などにより、品質がさまざまな軌跡が含まれます。それにもかかわらず、標準的なBCはすべてのデモを同等に扱います。既存のキュレーション手法は、ループ内で高コストな方策学習を要求するか、または手動アノテーションを必要とするため、スケーラビリティが制限されます。私たちは、軌跡の滑らかさに基づいてデモンストレーションにスコアを付ける軽量フレームワークであるRINSE(Ranking and INdexing Smooth Examples)を提案します。この手法は、ポリシーのアーキテクチャに依存せず、軌跡データのみで動作し、さらにTEDでは位相境界/接触(contact)信号を追加で使用します。熟練した運動の特徴である滑らかさを指標として確立する運動制御理論に基づき、RINSEは2つの相補的な指標を用います。スペクトル・アーク長(SAL)は周波数領域における規則性を測るスペクトル指標であり、軌跡エンベロープ距離(TED)は接触を考慮した空間的な幾何学的逸脱を測る指標です。滑らかさによるフィルタリングは、保持されたデータ分布の条件付き行動分散を低減でき、さらにその効果は、アクションのチャンク化や誤差の複合によって増幅され得ることを示します。RoboMimicのベンチマークでは、SALフィルタリングはデータの6分の1で16%高い成功率を達成します。実世界の操作では、TEDフィルタリングがデータの半分で20%の改善を達成します。LIBERO-10におけるSTRAP内のリトリーバル段階のフィルタとして、RINSEの再ランキングは平均成功率を5.6%改善します。Re-Mixドメイン再重み付けにおけるソフト重みとして、RINSEのスコアは学習済みのRe-Mix割り当てと高い相関を持つドメイン割り当てを生成します(Spearman ho geq 0.89)。これらの結果は、特にノイズや異種データの状況において、滑らかさがフィルタリング、リトリーバル、再重み付けの各設定にわたって有用な品質シグナルとなることを支持しています。