LeWorldModel: ピクセルからの安定したエンドツーエンドのジョイント埋め込み予測アーキテクチャ（JEPA）

arXiv cs.AI / 2026/3/23

📰 ニュースModels & Research

共有:

要点

LeWorldModel（LeWM）は、生のピクセルから安定してエンドツーエンドに訓練される初のJEPAであり、次の埋め込み予測とガウス潜在正則化項という2つの損失項のみを用いる。
このアプローチは、損失のハイパーパラメータを6個から1個に削減し、調整を簡素化し、従来のエンドツーエンドJEPA手法に比べて脆弱性を低減する。
約1,500万パラメータを持つLeWMは、1台のGPUで数時間の訓練が可能で、基盤モデルベースの世界モデルより最大約48倍速く学習でき、2Dおよび3D制御タスク全般で競争力を維持する。
潜在空間は意味のある物理的構造を符号化しており、プロービングの結果、モデルが物理的にありえないイベントを検出できることが示されている。

要旨: Joint Embedding Predictive Architectures (JEPAs) は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供しますが、既存の手法は依然として脆弱であり、複雑な多項損失、指数移動平均、事前訓練済みエンコーダ、または表現崩壊を回避するための補助監督に依存します。本研究では、生データのピクセルからエンドツーエンドで安定して学習する最初の JEPA、LeWorldModel（LeWM）を紹介します。LeWM は、次埋め込み予測損失と、ガウス分布に従う潜在埋め込みを強制する正則化項という、2つの損失項のみを用いて訓練します。これにより、6つから1つへ、唯一のエンドツーエンド代替手法と比較して調整可能な損失ハイパーパラメータを削減します。約1500万パラメータを1つのGPUで数時間で学習可能な LeWM は、ファウンデーションモデルベースの世界モデルより最大で48倍速く計画され、さまざまな2Dおよび3D制御タスクで競争力を維持します。制御を超えて、LeWM の潜在空間が物理量の探査を通じて意味のある物理的構造をエンコードしていることを示します。Surprise 評価は、モデルが物理的に不合理なイベントを確実に検出できることを確認します。

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

Dev.to

私のAIには時計がない

Dev.to

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Reddit r/LocalLLaMA

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

Reddit r/artificial

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

Reddit r/LocalLLaMA

LeWorldModel: ピクセルからの安定したエンドツーエンドのジョイント埋め込み予測アーキテクチャ（JEPA）

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

1対1のRTSゲームで、LLMsがユニットを制御するコードを書く『ベンチマーク』を作成した

私のAIには時計がない

コーディング向けの LLM をどう選ぶべきか？ 注目すべきパラメータは何か？

Andrej Karpathy の自律型AI研究エージェントが2日間で約700件の実験を行い、AIの今後の方向性を垣間見せた

So cursorはKimi K2.5が最高のオープンソースモデルであると認めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

コーディング向けの LLM をどう選ぶべきか？注目すべきパラメータは何か？