AI Navigate

迅速な適応のための統一的ポリシー・価値分解

arXiv cs.LG / 2026/3/19

📰 ニュースModels & Research

要点

  • 新しいタスクへの再訓練なしに迅速に適応するため、ポリシーと価値が低次元のゴール埋め込みを共有する双線形のアクター-クリティック分解を導入する。
  • クリティックは Q = ∑_k G_k(g) y_k(s,a) の形に因数分解され、G_k(g) はゴール条件付き係数、y_k(s,a) は学習された価値基底を表し、ゲイン調節された乗法的相互作用を実現する。
  • アクターは同じ係数でプリミティブポリシーに重みを付けるよう拡張され、基底を凍結して単一のフォワードパスで G_k(g) を推定することでゼロショット適応を実現する。
  • MuJoCo Ant の八方向移動を用いた実験は、迅速な適応の向上を示し、高次元の強化学習における効率的な転移の生物学的に妥当な機構を示唆する。

概要:
複雑な制御系における迅速な適応は、強化学習の中心的な課題であり続ける。私たちは、方策と価値関数が低次元の係数ベクトル — ゴール埋め込み — を共有するフレームワークを紹介します。これによりタスクの同一性を捉え、表現の再訓練なしに新規タスクへ即座に適応できるようになります。
事前訓練の間、双線形のアクター-クリティック分解を通じて、構造化された価値基底と互換性のある方策基底を共同で学習します。クリティックは、Q = sum_k G_k(g) y_k(s,a) と因子分解され、ここで G_k(g) はゴール条件付き係数ベクトル、y_k(s,a) は学習された価値基底関数です。この乗法ゲーティング — コンテキスト信号が一連の状態依存基底のゲインをスケールする性質 — は、層5ピラミダルニューロンで観察されるゲイン変調を連想させるものであり、上位からの入力が感覚駆動応答のゲインを変えるが、チューニング自体を変えない。
Successor Features を基盤として、分解をアクターへ拡張します。アクターは、同じ係数 G_k(g) で重み付けされたプリミティブなポリシーの集合を組み合わせて構成します。テスト時には基底は凍結され、G_k(g) はゼロショットで単一のフォワードパスを介して推定され、勾配更新なしに新規タスクへ即座に適応できます。
MuJoCo Ant 環境で Soft Actor-Critic エージェントを、連続ゴールベクトルとして指定された8方向に歩くことを要求する多方向の移動目的の下で訓練します。その双線形構造により、各ポリシーヘッドは方向のサブセットに特化できる一方、共有係数層はそれらの間で一般化し、ゴール埋め込み空間内で補間することによって新しい方向を取り込むことができます。我々の結果は、共有された低次元のゴール埋め込みが、高次元制御における迅速で構造化された適応の一般的な機構を提供することを示唆しており、複雑な強化学習システムにおける効率的な転送の生物学的に妥当な原理となり得ることを強調しています。