学習可能な表現の転移を促すための価値を明示した事前学習

arXiv cs.RO / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、環境の変化に直面する強化学習エージェントが、タスクをまたいで汎用的に使える視覚表現を学習するための手法として Value Explicit Pretraining（VEP）を提案している。
VEPは、モンテカルロの価値推定（タスク進捗を反映）に基づく自己教師ありコントラスト損失を用いて、ラベルなしの「最適でない」デモデータでエンコーダを事前学習する。
目的に関連する情報を捉えつつ、環境ダイナミクスと見た目の変化に対して表現を不変にし、さらに時間的に滑らかな表現を得ることを狙っている。
Ant locomotion、現実的なナビゲーションシミュレータ、Atariベンチマークでの実験では、VEPが未見のタスクへの汎化で既存の事前学習の最先端手法を上回り、報酬で最大2倍、サンプル効率で最大3倍の改善を示した。
既存手法との大きな違いは、事前学習時にタスクを必ず解けるとは限らない「最適でない」ラベルなしデータを活用する点にある。

Abstract

多様な変化が存在する状況下で、特定のタスクに対する視覚入力を理解することは、視覚強化学習エージェントが直面する重要な課題である。我々は、移動強化学習のために汎化可能な表現を学習する手法である extit{Value Explicit Pretraining}（VEP）を提案する。VEPは、環境ダイナミクスや見た目の変化に対して不変となる表現を学習するエンコーダを用いることで、過去に学習したタスクと同様の目的を共有する新しいタスクを効率的に学習できるようにする。 extit{準最適なラベルなしデモデータ}（観測の系列と疎な報酬信号）を用いてエンコーダを事前学習するために、自己教師ありのコントラスト学習損失を用いる。この損失により、タスクの進捗を反映するモンテカルロ価値推定に基づいて、異なるタスク間の状態をモデルが関連付けることが可能となり、その結果、タスクの目的を捉える時間的に滑らかな表現が得られる。我々の手法と既存のアプローチとの大きな違いは、タスクを常に解けるとは限らない extit{準最適なラベルなしデータ}を用いる点である。Antロコモーション、現実的なナビゲーションシミュレータ、およびAtariベンチマークに関する実験により、VEPが未見のタスクへの汎化能力において、現在のSoTAの事前学習手法を上回ることが示される。VEPは報酬で最大

2 imes

の向上、サンプル効率で最大

3 imes

の向上を達成する。VEPポリシーの動画については、 \href{https://sites.google.com/view/value-explicit-pretraining/}{website} を参照されたい。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

API vs Local LLMの『一択』時代は2026年に終わった — 値上げと値下げが同時進行する 25ドル vs 0.87ドル、30倍格差を読み解く

Qiita

Claude Code + Python で AI 情報収集→記事化パイプラインを Phase 3 まで作って分かったこと

Zenn

学習可能な表現の転移を促すための価値を明示した事前学習

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

API vs Local LLMの『一択』時代は2026年に終わった — 値上げと値下げが同時進行する 25ドル vs 0.87ドル、30倍格差を読み解く

Claude Code + Python で AI 情報収集→記事化パイプラインを Phase 3 まで作って分かったこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

API vs Local LLMの『一択』時代は2026年に終わった — 値上げと値下げが同時進行する 25ドル vs 0.87ドル、30倍格差を読み解く

Claude Code + Python で AI 情報収集→記事化パイプラインを Phase 3 まで作って分かったこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」