要旨: Joint Embedding Predictive Architectures (JEPAs) は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供しますが、既存の手法は依然として脆弱であり、複雑な多項損失、指数移動平均、事前訓練済みエンコーダ、または表現崩壊を回避するための補助監督に依存します。本研究では、生データのピクセルからエンドツーエンドで安定して学習する最初の JEPA、LeWorldModel(LeWM)を紹介します。LeWM は、次埋め込み予測損失と、ガウス分布に従う潜在埋め込みを強制する正則化項という、2つの損失項のみを用いて訓練します。これにより、6つから1つへ、唯一のエンドツーエンド代替手法と比較して調整可能な損失ハイパーパラメータを削減します。約1500万パラメータを1つのGPUで数時間で学習可能な LeWM は、ファウンデーションモデルベースの世界モデルより最大で48倍速く計画され、さまざまな2Dおよび3D制御タスクで競争力を維持します。制御を超えて、LeWM の潜在空間が物理量の探査を通じて意味のある物理的構造をエンコードしていることを示します。Surprise 評価は、モデルが物理的に不合理なイベントを確実に検出できることを確認します。
LeWorldModel: ピクセルからの安定したエンドツーエンドのジョイント埋め込み予測アーキテクチャ(JEPA)
arXiv cs.AI / 2026/3/23
📰 ニュースModels & Research
要点
- LeWorldModel(LeWM)は、生のピクセルから安定してエンドツーエンドに訓練される初のJEPAであり、次の埋め込み予測とガウス潜在正則化項という2つの損失項のみを用いる。
- このアプローチは、損失のハイパーパラメータを6個から1個に削減し、調整を簡素化し、従来のエンドツーエンドJEPA手法に比べて脆弱性を低減する。
- 約1,500万パラメータを持つLeWMは、1台のGPUで数時間の訓練が可能で、基盤モデルベースの世界モデルより最大約48倍速く学習でき、2Dおよび3D制御タスク全般で競争力を維持する。
- 潜在空間は意味のある物理的構造を符号化しており、プロービングの結果、モデルが物理的にありえないイベントを検出できることが示されている。



