状況を考慮したダイナミクス学習

arXiv cs.RO / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、観測されない要因がロボットのダイナミクスと報酬の両方に影響する場合に、自律ロボットがそれらの隠れた状態表現をリアルタイムに推論できるオンライン学習フレームワークを提案する。
提案手法を、潜在パラメータが状態遷移および報酬構造にどのように影響するかを明示的にモデル化した一般化隠れパラメータ・マルコフ決定過程（Generalized Hidden Parameter Markov Decision Process）として定式化する。
この手法は、状態遷移の同時分布（joint distribution）を学習し、潜在する「自己（ego）」および環境要因のための表現力の高い表現を生成することで、異なる運用状況の識別を支援する。
基となるデータ生成過程の変化を区分するために、多変量拡張版のベイズオンライン・チェンジポイント検出を用い、直近の遷移データから記号的（symbolic）な「現在の状況」を導出する。
シミュレーションおよび実ロボットでの未整地ナビゲーション実験により、データ効率、方策（policy）の性能、より安全で適応的なナビゲーション戦略の開発が改善されることを示す。

要旨: 複雑で非構造化された環境で動作する自律ロボットは、内部状態と外界の双方の理解を曖昧にする潜在的で観測されない要因のために、大きな課題に直面している。この課題に取り組むことで、ロボットは自らの運用状況に対するより深い把握を発展させることが可能になる。これに取り組むために、本研究では、隠れ状態表現のオンライン学習のための新しい枠組みを提案する。これによりロボットは、そうであれば曖昧さを生み、準最適または誤った挙動につながってしまう不確実で動的な条件に対して、リアルタイムに適応できる。本手法は、未観測のパラメータが遷移ダイナミクスと報酬構造の両方に与える影響を明示的にモデル化した、一般化された隠れパラメータマルコフ決定過程として定式化する。中核となる革新は、状態遷移の同時分布をオンラインで学習する点にあり、これが潜在する「自己（ego）要因」と「環境要因」を表す表現力の高い表現となる。この確率論的アプローチにより、異なる運用状況の同定と適応が可能になり、頑健性と安全性が向上する。また、ベイズのオンライン・チェンジポイント検出の多変量拡張を通じて、ロボットのダイナミクスを支配するデータ生成プロセスの変化を分割する。その後、ロボットの遷移モデルは、最新の状態遷移の同時分布から導出される現在の状況の記号的表現によって情報付けされ、適応的で状況に応じた意思決定が可能になる。現実世界での有効性を示すために、未モデル化かつ未測定の地形特性がロボットの運動に大きく影響し得るという難しい課題である、非構造化地形のナビゲーションにおいて検証を行う。シミュレーションと実環境の両方で行った大規模な実験により、データ効率、方策の性能、そしてより安全で適応的なナビゲーション戦略の創発において有意な改善が示される。