コープマン作用素フレームワークを用いた最小二乗ポリシー反復における自動特徴量同定
arXiv cs.LG / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、コープマンオートエンコーダと最小二乗ポリシー反復を組み合わせ、EDMDによってLSの固定点近似を再定式化することで、強化学習手法KAE-LSPIを提案する。
- 線形RLアプローチの主要な制約――特徴量やカーネルを体系的に選ぶ方法がないこと――に対処することを目的としており、コープマンオートエンコーダ(KAE)フレームワークにより特徴量を自動的に学習する。
- 著者らは、確率的チェーンウォークおよび倒立振子制御タスクを用いて、KAE-LSPIを従来のLSPIおよびカーネルベースのLSPI(KLSPI)とベンチマークする。
- 結果は、KAE-LSPIが妥当な数の特徴量を学習でき、特徴量を事前に定義しないにもかかわらず、固定特徴量/カーネルのベースラインと同等の、最適または準最適なポリシーへの収束を達成することを示す。
- 本提案は、最小二乗RL制御における自動特徴量学習へとつながる、コープマン作用素に基づく統一的な手順として位置づけられている。



