一般的な関数近似に基づく敵対的模倣学習:理論解析と実用アルゴリズム

arXiv cs.LG / 2026/5/5

📰 ニュースModels & Research

要点

  • 本論文は、敵対的模倣学習(AIL)の理論が単純な設定(表形式や線形)に限定されている点に着目し、一般的な関数近似(ニューラルネットワーク的)下でのオンラインAILを解析します。
  • 研究では、最適化ベースAIL(OPT-AIL)という新しい枠組みを提案し、報酬学習のオンライン最適化と、楽観的正則化付きの方策学習最適化を組み合わせます。
  • 2つのバリアントとして、モデルフリーOPT-AILとモデルベースOPT-AILを構築し、近似的に専門家に近い方策を学習するための専門家サンプル数と相互作用数について多項式の計算量を理論的に示します。
  • 著者らは、一般的な関数近似のもとで「効率性が証明された」AILとしては初めての手法であると主張しています。
  • 実験では、OPT-AILが複数の難しいタスクにおいて従来の最先端ディープAIL手法を上回ることが示されます。

概要: 模倣学習における代表的な手法である敵対的模倣学習(AIL)は、ニューラルネットワークによる近似によって強力に支えられ、実務上大きな成功を収めてきました。しかし、既存のAILに関する理論的解析は主に、表形式データや線形関数近似のような単純化された設定に限られており、また、実装を妨げる複雑なアルゴリズム設計を伴っています。これにより、理論と実践の間には大きな隔たりが生じています。本論文は、この隔たりを埋めるために、一般的な関数近似のもとでのオンラインAILの理論的基盤を探ります。私たちは、報酬学習に対してオンライン最適化を行い、方策学習に対して楽観主義(optimism)で正則化した最適化を組み合わせる、新しい枠組みである最適化ベースAIL(OPT-AIL)を提案します。この枠組みの中で、2つの具体的な手法、すなわちモデルフリーOPT-AILとモデルベースOPT-AILを開発します。理論的解析により、両バリアントが、エキスパートに近い方策を学習するための専門家サンプル複雑度と相互作用複雑度のいずれも多項式で達成することを示します。私たちの知る限り、これらは一般的な関数近似のもとで「証明に基づいて」効率的であるAIL手法として初めてのものです。実務的観点からは、OPT-AILは2つの目的関数に対する近似的な最適化のみを要求するため、実装を容易にします。実験的研究では、OPT-AILが複数の困難なタスクにおいて、従来の最先端の深層AIL手法を上回ることが示されています。