変分量子回路による量子階層型強化学習

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、非階層型強化学習で見られたパラメータ化量子計算の利点が、階層型強化学習の文脈でも再現されるかを検証しています。
  • option-critic アーキテクチャに基づくハイブリッド階層エージェントを提案し、特徴抽出器、オプション価値関数、終了関数、オプション内方策などの複数の古典コンポーネントを変分量子回路で置き換えています。
  • 標準的なベンチマーク環境での評価では、量子特徴抽出器を用いたハイブリッドエージェントが古典ベースラインを上回り、学習可能パラメータを最大66%削減できることが示されました。
  • さらに、量子によるオプション価値推定が性能を大きく低下させる「アーキテクチャ上のボトルネック」を特定しています。
  • アブレーション研究により、量子回路のアーキテクチャ選択が結果に実質的な影響を与えることが明らかになり、パラメータ効率の高いハイブリッド階層エージェントの設計指針が提示されています。

概要: 強化学習は、効果と効率の向上が非常に価値ある、最も挑戦的な学習パラダイムの1つです。階層型強化学習は、時間的抽象化を活用して意思決定を構造化する変種です。パラメータ化された量子計算は、非階層型の強化学習において成功を収めている一方で、これらの利点が階層型の意思決定へ適応するかどうかは、重要な未解決の問いです。本研究では、option-criticアーキテクチャに基づくハイブリッドな階層エージェントを開発します。このハイブリッドエージェントは、特徴抽出器、オプション価値関数、終了関数、およびオプション内部ポリシーにおける古典的コンポーネントを、変分量子回路で置き換えます。標準的なベンチマーク環境で評価した結果、量子特徴抽出器を用いるハイブリッドエージェントは、古典的ベースラインを上回りつつ、最大で66\%の訓練可能パラメータを節約できることが示されました。さらに、量子オプション価値推定が性能を著しく劣化させるアーキテクチャ上のボトルネックも特定しました。加えて、アブレーション研究により、量子回路のアーキテクチャ上の選択が性能にどのように影響するかを明らかにします。本研究は、パラメータ効率の高いハイブリッド階層エージェントのための設計原則を確立します。