ハミルトン系における目標到達可能性のデータ駆動学習のためのシンプレクティックな帰納的バイアス

arXiv stat.ML / 2026/4/21

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、非線形システムにおけるデータ駆動制御と目標到達可能性を、一般的な滑らかさ仮定で起こりがちな指数的なデータ増大を避けつつサンプル効率よく行う方法を扱います。
  • ハミルトン系に対して、シンプレクティック幾何と、エネルギー準位集合上に現れる固有の再帰性(recurrence)を用いて目標到達可能性を支えます。
  • 著者らは、再帰性に基づく議論と、「チェーン・ポリシー(chain policies)」と呼ばれる最近提案された方策クラスを組み合わせます。これは、実演デモから抽出した局所的に検証済みの軌道区間をつなぎ合わせます。
  • 到達可能性のための十分条件を導出し、必要なデータ量が状態次元ではなく、ハミルトニアン固有の幾何学的性質と再帰性の明示的な指標に依存することを示します。
  • 全体として、この研究は物理法則がもたらす構造を、高次元の一般的仮定の代替として「限られたデータからの汎化」を改善する有効な手段として位置づけています。

要旨: 帰納バイアスとは、学習手法が限られたデータから効果的に汎化できるようにする仮説クラスへの制約を指します。制御における代表的な例は線形性であり、これは安定化および最適制御に対する低いサンプル複雑度の保証の基盤となっています。これに対して一般の非線形ダイナミクスでは、保証はしばしば滑らかさの仮定(例:リプシッツ連続性)に依存し、カバリングの議論と組み合わされることで、要求データ量が周囲の(環境の)次元に対して指数的に増大し得ます。本論文では、データ効率の高い非線形制御には、自然そのものに埋め込まれた帰納バイアス、すなわち物理法則によって課される構造の活用が必要であると主張します。ハミルトン系に焦点を当て、シンプレクティック幾何学と、エネルギーレベル集合における固有の再帰性を用いて、到達可能性(タスク)問題を解きます。我々のアプローチは再帰性の性質に加え、最近提案されたポリシークラスである「チェーン・ポリシー」を組み合わせます。これは、デモンストレーションから抽出した局所的に証明された軌道区間を合成することで、目標への到達可能性を達成します。この構成の下での到達可能性に関する十分条件を提示し、得られるデータ要求が状態次元ではなく、ハミルトニアンの明示的な幾何学的および再帰的性質に依存することを示します。