概要: 文脈内強化学習(ICRL)における近年の進展は、推論時に直接新しい課題を獲得できる汎用エージェントの訓練にその可能性があることを示してきました。アルゴリズム・ディスティレーション(AD)はこのパラダイムを切り拓き、その後マルチドメイン設定へと拡張されましたが、未見の課題への汎化能力には限界がありました。意思決定事前学習トランスフォーマー(DPT)は代替として導入され、簡略化された領域においてより強い文脈内強化学習能力を示したものの、そのスケーラビリティは確立されていませんでした。本研究では、DPTを多様なマルチドメイン環境へ拡張し、ベイズ事後サンプリングとしての解釈を保持する自然な訓練選択肢としてフロー・マッチングを適用します。その結果、数百の多様な課題にわたって訓練されたエージェントを得ることができ、保持されたテストセットへの汎化において明確な改善を達成します。このエージェントは、先行するADのスケーリングを上回り、オンラインおよびオフラインの両方における推論でより強い性能を示します。これにより、汎用エージェントを訓練するための専門家蒸留の代替としてICRLが実行可能であることを裏づけます。
Vintix II:決定事前学習トランスフォーマーはスケーラブルなインコンテキスト強化学習器である
arXiv cs.LG / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Decision Pre-Trained Transformer(DPT)を大規模かつ多様なマルチドメインのインコンテキスト強化学習へ拡張したVintix IIを提示する。
- 学習手法としてFlow Matchingを用いることで、ベイズ事後サンプリングと整合した解釈を維持しつつDPTをスケールさせる。
- 数百に及ぶ多様なタスクに対する実験により、従来のアルゴリズム蒸留(AD)のスケーリング手法と比べて、保持されたテストタスクへの汎化が向上することを示す。
- 得られたエージェントは、オンライン推論とオフライン推論の両方でより強い性能を発揮し、一般化エージェントに対する専門家蒸留の代替としてICRLが実行可能であることを位置づける。
- 全体として、本研究は、単純化された環境を超えてDPTスタイルのICRLを本当にスケーラブルにできるかという重要な未解決の問いに取り組む。



