CubeDAgger：効率的かつ低リスクな相互作用による動的システムのためのインタラクティブ模倣学習

arXiv cs.RO / 2026/4/23

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、インタラクティブ模倣学習における動的システムでの課題として、監督（スーパービジョン）のタイミング不一致が行動の急変を招き、ロボットのダイナミクス安定性を損なう点を扱っています。
動的タスクでも安定性の破れをより少なくしながら頑健性を高める手法として、CubeDAggerを提案しています。
CubeDAggerはベースラインのEnsembleDAggerに基づき、(1)監督タイミング判定の閾値を明示的に有効化する正則化、(2)複数の行動候補を用いた最適コンセンサスへの変換、(3)時間整合的な探索のための自己回帰型の色付きノイズ注入という3つの改良を加えます。
シミュレーションにより、学習された方策が対話中のダイナミック安定性を維持しつつ十分に頑健であることが示されています。
ヒトの専門家による実機スクーピング実験では、本手法が約30分の相互作用だけでゼロから頑健な方策を学習できることが示されています。

要旨: インタラクティブな模倣学習は、専門家による段階的な教師信号（スーパービジョン）によって、エージェントの制御方策を頑健にします。近年のアルゴリズムの多くは、教師信号のタイミングを限定的に選択することで専門家の負担を減らすため、専門家エージェント切り替え（switching）システムを採用しています。しかしこのアプローチは静的タスクに対してのみ有用であり、動的タスクではタイミングの不一致が行動の急激な変化を引き起こし、ロボットの動的安定性を損ないます。そこで本論文では、CubeDAgger という新しい手法を提案し、動的タスクに対しても動的安定性の違反がより少ない状態で頑健性を高めます。提案手法はベースラインである EnsembleDAgger を土台としており、3つの改善を加えています。第一に、教師信号のタイミングを決めるためのしきい値を明示的に有効化するための正則化を追加します。第二に、専門家エージェント切り替えシステムを、複数の行動候補の最適な合意（コンセンサス）システムへと変換します。第三に、時系列的に一貫した探索のため、自己回帰的な色付きノイズをエージェントの行動に注入します。これらの改善はシミュレーションによって検証され、学習された方策が相互作用中の動的安定性を維持しつつ、十分に頑健であることが示されます。最後に、人間の専門家による実機でのスクーピング実験により、提案手法が、わずか30分間の相互作用だけで、最初から頑健な方策を学習できることが実証されます。 https://youtu.be/kBl3SCTnVEM