迅速な適応のための統一的ポリシー・価値分解

arXiv cs.LG / 2026/3/19

📰 ニュースModels & Research

共有:

要点

新しいタスクへの再訓練なしに迅速に適応するため、ポリシーと価値が低次元のゴール埋め込みを共有する双線形のアクター-クリティック分解を導入する。
クリティックは Q = ∑_k G_k(g) y_k(s,a) の形に因数分解され、G_k(g) はゴール条件付き係数、y_k(s,a) は学習された価値基底を表し、ゲイン調節された乗法的相互作用を実現する。
アクターは同じ係数でプリミティブポリシーに重みを付けるよう拡張され、基底を凍結して単一のフォワードパスで G_k(g) を推定することでゼロショット適応を実現する。
MuJoCo Ant の八方向移動を用いた実験は、迅速な適応の向上を示し、高次元の強化学習における効率的な転移の生物学的に妥当な機構を示唆する。

概要：
複雑な制御系における迅速な適応は、強化学習の中心的な課題であり続ける。私たちは、方策と価値関数が低次元の係数ベクトル — ゴール埋め込み — を共有するフレームワークを紹介します。これによりタスクの同一性を捉え、表現の再訓練なしに新規タスクへ即座に適応できるようになります。
事前訓練の間、双線形のアクター-クリティック分解を通じて、構造化された価値基底と互換性のある方策基底を共同で学習します。クリティックは、Q = sum_k G_k(g) y_k(s,a) と因子分解され、ここで G_k(g) はゴール条件付き係数ベクトル、y_k(s,a) は学習された価値基底関数です。この乗法ゲーティング — コンテキスト信号が一連の状態依存基底のゲインをスケールする性質 — は、層5ピラミダルニューロンで観察されるゲイン変調を連想させるものであり、上位からの入力が感覚駆動応答のゲインを変えるが、チューニング自体を変えない。
Successor Features を基盤として、分解をアクターへ拡張します。アクターは、同じ係数 G_k(g) で重み付けされたプリミティブなポリシーの集合を組み合わせて構成します。テスト時には基底は凍結され、G_k(g) はゼロショットで単一のフォワードパスを介して推定され、勾配更新なしに新規タスクへ即座に適応できます。
MuJoCo Ant 環境で Soft Actor-Critic エージェントを、連続ゴールベクトルとして指定された8方向に歩くことを要求する多方向の移動目的の下で訓練します。その双線形構造により、各ポリシーヘッドは方向のサブセットに特化できる一方、共有係数層はそれらの間で一般化し、ゴール埋め込み空間内で補間することによって新しい方向を取り込むことができます。我々の結果は、共有された低次元のゴール埋め込みが、高次元制御における迅速で構造化された適応の一般的な機構を提供することを示唆しており、複雑な強化学習システムにおける効率的な転送の生物学的に妥当な原理となり得ることを強調しています。

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

GANを用いたデータ拡張

Dev.to

非パラメトリック M-Estimands の滑らかな汎関数に対する自動偏り除去機械学習

arXiv stat.ML

ノーリファレンス強化画像品質評価のための好みガイド付きデバイアス除去

arXiv cs.CV

推測的ポリシー・オーケストレーション: クラウド-ロボティック操作の遅延耐性フレームワーク

arXiv cs.RO

迅速な適応のための統一的ポリシー・価値分解

要点

関連記事

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

GANを用いたデータ拡張

非パラメトリック M-Estimands の滑らかな汎関数に対する自動偏り除去機械学習

ノーリファレンス強化画像品質評価のための好みガイド付きデバイアス除去

推測的ポリシー・オーケストレーション: クラウド-ロボティック操作の遅延耐性フレームワーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

GANを用いたデータ拡張

非パラメトリック M-Estimands の滑らかな汎関数に対する自動偏り除去機械学習

ノーリファレンス強化画像品質評価のための好みガイド付きデバイアス除去

推測的ポリシー・オーケストレーション: クラウド-ロボティック操作の遅延耐性フレームワーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ