制御を伴う予測的学習による未来の最適制御

arXiv stat.ML / 2026/5/6

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、「未来の最適制御」は従来の強化学習（RL）を超えて、教師あり学習を学習による制御（learning-to-control）の領域へ拡張すべきだと主張しています。
「Prospective Learning with Control（PLuC）」を提案し、かなり一般的な仮定のもとで経験リスク最小化（ERM）が漸近的にベイズ最適方策を達成できることを示します。
非定常でリセットのない環境を主対象とし、典型的なRLアプローチがこの状況でうまく機能しにくい（または非効率になる）ことを示しています。
1次元のフォレージング（採餌）ベンチマークで、予測的学習に基づくエージェントを評価したところ、最新のRL手法（時間を考慮する改良版でも）が提案手法より桁違いに遅い収束を示しました。
PLuCフレームワークの実装はオープンソースで公開されており、他の研究者が試せるようになっています。

要旨: 未来の制御の最適化は、AIにとって次のフロンティアである。現在この問題に取り組む代表的な手法は、通常、強化学習（RL）に基づいている。RLは数学的に教師あり学習とは異なり、教師あり学習は近年のAIの達成の主力であった。さらに、RLは一般に、エピソードごとのリセットを伴う定常環境で動作するため、その有用性が制限される。ここでは、非定常でリセット不要の環境における「制御を学習する」ことに対処するため、教師あり学習を拡張する。''Prospective Learning with Control''（PLuC）と呼ばれるこの枠組みにより、かなり一般的ないくつかの仮定の下で、経験リスク最小化（ERM）が漸近的にベイズ最適方策を達成することを証明する。次に、制御を伴う予見的学習の具体例として、生息（採餌）行動（foraging）を考える。これは、自然のエージェントおよび人工のエージェントの両方に関連する典型的な課題である。この枠組みにより、定常性を仮定する現代的なRLアルゴリズムが、これらの非定常でリセット不要の環境ではうまく機能しないことを示す。時間を考慮した改良を行っても、単純な1-Dの採餌ベンチマークにおいて、我々の予見的採餌エージェントよりも桁違いに遅く収束する。コードは以下で利用可能: https://github.com/neurodata/procontrol.