数分で学ぶレース：Mini Wheelbot による Infoprop Dyna

arXiv cs.LG / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文は、シミュレーションのための入念な物理モデル作成やドメインランダム化に頼らない、強化学習の手法を提示している。
不確実性を考慮したモデルベース強化学習フレームワークである Infoprop Dyna により、ロボットが現実の相互作用から直接学習できることを示す。
非駆動（アンダーカクチュエイテッド）のユニサイクル型ロボット Mini Wheelbot を用いて、約 11 分の実世界での経験からトラックを周回するレース行動を学習できた。
この研究は、速い・非線形・不安定なダイナミクスを持つロボットでも、現実の相互作用データを通じて高い性能限界により直接到達できる可能性を主張している。
全体として、従来のシミュレーション中心の手順に比べて実世界学習に必要なウォールクロック時間を大きく短縮できることを示唆している。