Abstract
強化学習において、エージェントは環境と逐次的に相互作用し、報酬を最大化することを目指しますが、得られるのは部分的で確率的なフィードバックのみです。これにより、本質的な探索—活用(exploration-exploitation)のトレードオフが生じます。すなわち、エージェントは隠れたダイナミクスを学ぶために探索しつつ、その知識を活用して目標となる目的関数を最大化しなければなりません。古典的には広く研究されてきたこの枠組みを量子システムに適用するには、未知のダイナミクスにより進化する隠れた量子状態を扱う必要があります。私たちは、環境が未知の量子チャネルによって進化する隠れた量子メモリを保持し、エージェントが量子インストゥルメントを用いて逐次的に介入する、という枠組みを通じてこの問題を定式化します。この設定に対し、楽観的最大尤度推定アルゴリズムを適用します。さらに、連続作用空間へ分析を拡張し、一般の正作用素値測度(POVM)をモデル化できるようにします。量子チャネルとインストゥルメントを通じて推定誤差が伝播する様子を制御することで、戦略の累積レグレットがKエピソードにわたって8mathcal{O}}(\sqrt{K})でスケールすることを証明します。加えて、多腕量子バンディット問題への還元により、この劣線形スケーリングが多対数因子まで厳密に最適であることを示す情報理論的下界を確立します。物理的な応用として、状態非依存(state-agnostic)な仕事の抽出を考えます。隠れたメモリにより相関した非i.i.d.な量子状態の列から自由エネルギーを抽出する際、供給源についての知識が不足していると熱力学的な散逸が生じます。私たちの設定では、数学的なレグレットがこの累積散逸を正確に定量化します。適応的なアルゴリズムを用いることで、エージェントは過去のエネルギー結果を使って抽出プロトコルをその場で改善し、累積散逸を劣線形に抑えることに成功します。結果として、散逸率は漸近的にゼロになります。