行動模倣における利得依存誤差ダイナミクスの非漸近的理論

arXiv cs.RO / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、PDコントローラに基づく閉ループダイナミクスを通じて、行動模倣（BC）における独立なサブガウス行動誤差がサブガウスな位置誤差へ伝播することを、非漸近的に説明する理論を提示します。
暗黙の誤差伝播を捉える利得依存の代理行列 X∞(K) を導入し、ホライズン T にわたる失敗確率のテール挙動を決める要因を明らかにし、訓練損失だけでは閉ループ性能を予測できないことを示します。
失敗確率は、利得依存の増幅指標 Γ_T(K) と、検証損失および一般化の余裕（generalization slack）からなる項に分解され、コントローラ利得が性能に直結する点を強調します。
形状保持的な上界構造仮定のもとで X∞(K) に対する評価式を与え、コンプライアント・オーバーダンプ（CO）からスティッフ・アンダーダンプ（SU）までのPDレジームごとに、失敗境界の厳密さが（系依存ではありつつ）どう変わるかを整理します。
表現としてのスカラー二次PD系では定常分散の閉形式が示され、安定領域全体で剛性・減衰に対して単調性が成り立ち、さらにZOH離散化でも同様に単調性が引き継がれるため、コンプライアントでオーバーダンプな制御がBCの成功率を改善するという経験的知見を理論的に説明します。