Vintix II：決定事前学習トランスフォーマーはスケーラブルなインコンテキスト強化学習器である

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Decision Pre-Trained Transformer（DPT）を大規模かつ多様なマルチドメインのインコンテキスト強化学習へ拡張したVintix IIを提示する。
学習手法としてFlow Matchingを用いることで、ベイズ事後サンプリングと整合した解釈を維持しつつDPTをスケールさせる。
数百に及ぶ多様なタスクに対する実験により、従来のアルゴリズム蒸留（AD）のスケーリング手法と比べて、保持されたテストタスクへの汎化が向上することを示す。
得られたエージェントは、オンライン推論とオフライン推論の両方でより強い性能を発揮し、一般化エージェントに対する専門家蒸留の代替としてICRLが実行可能であることを位置づける。
全体として、本研究は、単純化された環境を超えてDPTスタイルのICRLを本当にスケーラブルにできるかという重要な未解決の問いに取り組む。

概要: 文脈内強化学習（ICRL）における近年の進展は、推論時に直接新しい課題を獲得できる汎用エージェントの訓練にその可能性があることを示してきました。アルゴリズム・ディスティレーション（AD）はこのパラダイムを切り拓き、その後マルチドメイン設定へと拡張されましたが、未見の課題への汎化能力には限界がありました。意思決定事前学習トランスフォーマー（DPT）は代替として導入され、簡略化された領域においてより強い文脈内強化学習能力を示したものの、そのスケーラビリティは確立されていませんでした。本研究では、DPTを多様なマルチドメイン環境へ拡張し、ベイズ事後サンプリングとしての解釈を保持する自然な訓練選択肢としてフロー・マッチングを適用します。その結果、数百の多様な課題にわたって訓練されたエージェントを得ることができ、保持されたテストセットへの汎化において明確な改善を達成します。このエージェントは、先行するADのスケーリングを上回り、オンラインおよびオフラインの両方における推論でより強い性能を示します。これにより、汎用エージェントを訓練するための専門家蒸留の代替としてICRLが実行可能であることを裏づけます。

Black Hat Asia

AI Business

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

Reddit r/MachineLearning

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

Hugging Face Blog

Vintix II：決定事前学習トランスフォーマーはスケーラブルなインコンテキスト強化学習器である

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

いきなり完成形出すAI、建築設計に変化もたらす 「たかがツール」は危険

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

[N] ミラ・ジョヴォヴィッチが開発者で、AIに投資していて、プロジェクトをオープンソースしたことを今知った

ALTK‑Evolve: AIエージェントの業務中学習（オン・ザ・ジョブ・ラーニング）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

いきなり完成形出すAI、建築設計に変化もたらす「たかがツール」は危険