広告

コープマン作用素フレームワークを用いた最小二乗ポリシー反復における自動特徴量同定

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、コープマンオートエンコーダと最小二乗ポリシー反復を組み合わせ、EDMDによってLSの固定点近似を再定式化することで、強化学習手法KAE-LSPIを提案する。
  • 線形RLアプローチの主要な制約――特徴量やカーネルを体系的に選ぶ方法がないこと――に対処することを目的としており、コープマンオートエンコーダ(KAE)フレームワークにより特徴量を自動的に学習する。
  • 著者らは、確率的チェーンウォークおよび倒立振子制御タスクを用いて、KAE-LSPIを従来のLSPIおよびカーネルベースのLSPI(KLSPI)とベンチマークする。
  • 結果は、KAE-LSPIが妥当な数の特徴量を学習でき、特徴量を事前に定義しないにもかかわらず、固定特徴量/カーネルのベースラインと同等の、最適または準最適なポリシーへの収束を達成することを示す。
  • 本提案は、最小二乗RL制御における自動特徴量学習へとつながる、コープマン作用素に基づく統一的な手順として位置づけられている。

広告
コープマン作用素フレームワークを用いた最小二乗ポリシー反復における自動特徴量同定 | AI Navigate