メモリを伴う量子プロセスに対する強化学習

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、量子環境が隠れた進化するメモリを保持し、エージェントは量子インスツルメントを介して行動するが、得られるのは部分的で確率的なフィードバックのみである量子プロセスに対する強化学習を定式化する。
  • 楽観的な最大尤度推定(maximum-likelihood estimation)戦略を適用し、連続アクション空間へ枠組みを拡張する。さらに、一般のPOVM(正の演算子価値測定)を扱い、未知の量子チャネルを通じて誤差が伝播することを制御する後悔(regret)解析を行う。
  • 著者らは、累積後悔がKエピソードに対して~O(√K)のように部分線形にスケールすることを証明し、この「量子の隠れ状態」設定における効率的な探索と活用の性能を示す。
  • また、マルチアーム量子バンディット問題への還元により情報理論的な下限を与え、部分線形の√Kスケーリングが(多項対数因子の範囲で)本質的に最適であることを確立する。
  • 応用として、本手法が相関をもつ非i.i.d.な量子状態からの状態非依存の自由エネルギー/仕事抽出をどのように改善するかを示し、後悔を累積的な熱力学的散逸に直接結び付けるとともに、漸近的に散逸率をゼロにすることを達成する。

Abstract

強化学習において、エージェントは環境と逐次的に相互作用し、報酬を最大化することを目指しますが、得られるのは部分的で確率的なフィードバックのみです。これにより、本質的な探索—活用(exploration-exploitation)のトレードオフが生じます。すなわち、エージェントは隠れたダイナミクスを学ぶために探索しつつ、その知識を活用して目標となる目的関数を最大化しなければなりません。古典的には広く研究されてきたこの枠組みを量子システムに適用するには、未知のダイナミクスにより進化する隠れた量子状態を扱う必要があります。私たちは、環境が未知の量子チャネルによって進化する隠れた量子メモリを保持し、エージェントが量子インストゥルメントを用いて逐次的に介入する、という枠組みを通じてこの問題を定式化します。この設定に対し、楽観的最大尤度推定アルゴリズムを適用します。さらに、連続作用空間へ分析を拡張し、一般の正作用素値測度(POVM)をモデル化できるようにします。量子チャネルとインストゥルメントを通じて推定誤差が伝播する様子を制御することで、戦略の累積レグレットがKエピソードにわたって8mathcal{O}}(\sqrt{K})でスケールすることを証明します。加えて、多腕量子バンディット問題への還元により、この劣線形スケーリングが多対数因子まで厳密に最適であることを示す情報理論的下界を確立します。物理的な応用として、状態非依存(state-agnostic)な仕事の抽出を考えます。隠れたメモリにより相関した非i.i.d.な量子状態の列から自由エネルギーを抽出する際、供給源についての知識が不足していると熱力学的な散逸が生じます。私たちの設定では、数学的なレグレットがこの累積散逸を正確に定量化します。適応的なアルゴリズムを用いることで、エージェントは過去のエネルギー結果を使って抽出プロトコルをその場で改善し、累積散逸を劣線形に抑えることに成功します。結果として、散逸率は漸近的にゼロになります。
広告