コープマン作用素フレームワークを用いた最小二乗ポリシー反復における自動特徴量同定

arXiv cs.LG / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、コープマンオートエンコーダと最小二乗ポリシー反復を組み合わせ、EDMDによってLSの固定点近似を再定式化することで、強化学習手法KAE-LSPIを提案する。
線形RLアプローチの主要な制約――特徴量やカーネルを体系的に選ぶ方法がないこと――に対処することを目的としており、コープマンオートエンコーダ（KAE）フレームワークにより特徴量を自動的に学習する。
著者らは、確率的チェーンウォークおよび倒立振子制御タスクを用いて、KAE-LSPIを従来のLSPIおよびカーネルベースのLSPI（KLSPI）とベンチマークする。
結果は、KAE-LSPIが妥当な数の特徴量を学習でき、特徴量を事前に定義しないにもかかわらず、固定特徴量／カーネルのベースラインと同等の、最適または準最適なポリシーへの収束を達成することを示す。
本提案は、最小二乗RL制御における自動特徴量学習へとつながる、コープマン作用素に基づく統一的な手順として位置づけられている。

日経XTECH

Simon Willison's Blog

Dev.to

Dev.to

Dev.to