大規模言語モデルは、ロボティクスから自動運転、製造に至る、物理世界の理解を要する領域で限界に直面しています。その制約は投資家を世界モデルへと向かわせており、AMI Labsが10億3000万ドルのシードラウンドを調達した直後にWorld Labsが10億ドルを確保しました。
大規模言語モデル(LLM)は、次のトークン予測を通じた抽象的な知識の処理に長けていますが、物理的因果関係の基盤が根本的に欠けています。現実世界の行動がもたらす物理的影響を信頼性高く予測することはできません。
AI研究者や思想的リーダーは、産業界がAIをウェブブラウザの外へ、物理的空間へ押し出そうとする中で、これらの限界についてますます声を上げています。ポッドキャスター Dwarkesh Patel とのインタビューで、チューリング賞受賞者のリチャード・サットンは、LLMsは世界をモデル化する代わりに人々が言うことをただ真似するだけであり、それが経験から学習し世界の変化に適応する能力を制限します。
これが、LLMsを基づくモデル、含む 視覚言語モデル(VLMs)は、入力のごく小さな変化で壊れやすい挙動を示すことがある理由です。
Google DeepMindのCEO Demis Hassabisは、別のインタビューでもこの見解を語り、今日のAIモデルは「ぎざぎざした知性」に悩まされていると指摘しました。彼らは複雑な数学オリンピックの問題を解くことはできる一方で、基本的な物理には失敗します。現実世界のダイナミクスに関する重要な能力が欠けているためです。
この問題を解決するために、研究者は内部シミュレーターとして機能するワールドモデルの構築へと焦点を移し、AIシステムが実際の行動を起こす前に仮説を安全に検証できるようにしています。しかし「world models」は、いくつかの異なるアーキテクチャ的アプローチを包含する総称です。
それは、さまざまなトレードオフを持つ3つの異なるアーキテクチャ的アプローチが生まれました。
JEPA:リアルタイム向けに設計された
最初の主要アプローチは、世界のダイナミクスをピクセルレベルで予測しようとするのではなく、潜在表現を学習することに焦点を当てています。AMI Labsが支持するこの手法は、Joint Embedding Predictive Architecture(JEPA)に基づいています。
JEPAモデルはこの人間の認知的ショートカットを再現します。私たちが世界を観察するとき、シーンのすべてのピクセルや無関係な細部を記憶するわけではありません。例えば、通りを走る車を見ているとき、その軌道と速度を追跡します。背景の木々の葉の一枚一枚の光の反射を正確に計算することはありません。
JEPAモデルはこの人間の認知的ショートカットを再現します。ニューラルネットワークに次のフレームがどのように見えるかを正確に予測させる代わりに、抽象的な特徴の小さな集合、いわゆる潜在的な特徴を学習します。不要な細部を捨て、場面の要素がどのように相互作用するかという核心ルールのみに集中します。これにより、背景ノイズや他のモデルを壊す小さな変化に対してロバストになります。
このアーキテクチャは、計算資源とメモリの使用が非常に効率的です。不要な詳細を無視することで、はるかに少ないトレーニング例で済み、レイテンシも大幅に低くなります。これらの特性は、効率とリアルタイム推論が不可欠なロボティクス、自動運転車、ハイリスクのエンタープライズワークフローなどのアプリケーションに適しています。
例えば、AMIは医療企業Nablaと提携してこのアーキテクチャを用い、運用の複雑さをシミュレートし、急速な医療現場での認知的負荷を軽減します。
ヤン・レクヌ、JEPAアーキテクチャの先駆者でありAMIの共同創業者は、Newsweekのインタビューで「JEPAに基づく世界モデルは『目標を与えることができ、構築上、それらの目標を達成することだけができる』ように設計されている」と説明しました。
Gaussian splats:空間のために作られた
2番目のアプローチは、生成モデルを活用してゼロから完全な空間環境を構築します。World Labsのような企業に採用されているこの手法は、初期プロンプト(画像でもテキスト説明でもよい)を受け取り、生成モデルを用いて3Dのガウス・スプラットを作成します。ガウス・スプラットは、数百万の微細な数学的粒子を使ってジオメトリと照明を定義する3Dシーンを表現する技法です。平面的なビデオ生成とは異なり、これらの3D表現はUnreal Engineなどの標準的な物理エンジン・3Dエンジンに直接取り込むことができ、ユーザーや他のAIエージェントが任意の角度から自由にナビゲート・相互作用できます。
ここでの主な利点は、複雑で対話型の3D環境を作成するのに要する時間と一度きりの生成コストを著しく削減することです。World Labsの創業者Fei-Fei Liが指摘したように、LLMsは最終的には「wordsmiths in the dark」のようなもので、花のような言語を持つが空間知能と物理的経験を欠いています。World LabsのMarbleモデルはAIに欠けていた空間認識を与えます。
このアプローチは瞬間的・リアルタイム実行には設計されていませんが、空間計算、インタラクティブエンタテインメント、工業デザイン、ロボティクスの静的訓練環境の構築などにおいて大きな可能性を持っています。企業価値は、AutodeskのWorld Labsへの強力な支援がこれらのモデルを同社の工業デザインアプリケーションへ統合することに現れています。
End-to-end generation: built for scale
3つ目のアプローチは、プロンプトとユーザーのアクションを処理し、シーン、物理ダイナミクス、反応をリアルタイムで継続的に生成します。静的な3Dファイルを外部の物理エンジンへ輸出する代わりに、モデル自体がエンジンとして機能します。初期のプロンプトと連続的なユーザーアクションのストリームを取り込み、環境の次のフレームをリアルタイムで生成し、物理、照明、物体の反応をネイティブに計算します。
DeepMindの Genie 3 とNvidiaの Cosmos はこのカテゴリに該当します。これらのモデルは、無限のインタラクティブな体験と膨大な量の合成データを生成するための非常にシンプルなインターフェイスを提供します。DeepMindはGenie 3でこれをネイティブにデモンストレーションしました。これは、別個のメモリーモジュールを使わずに24フレーム毎秒で厳格な物体恒常性と一貫した物理を維持する様子を示しています。
このアプローチは、強力な合成データファクトリへと直接つながります。Nvidia Cosmosはこのアーキテクチャを用いて合成データと物理AI推論をスケールさせ、自動運転車やロボティクスの開発者が、現実世界でのテストのコストやリスクなしに希少で危険なエッジケース条件を合成できるようにします。Waymo(Alphabetの子会社)は、Genie 3の上に世界モデルを構築し、それを自動運転車の訓練に適用しています。
このエンドツーエンド生成手法の欠点は、物理とピクセルを同時に継続的にレンダリングするために必要な莫大な計算コストです。それでも、Hassabisが提示したビジョンを実現するにはこの投資が必要であり、現行のAIは現実世界で安全に機能するために不可欠な重要な能力を欠いているため、物理因果関係の深い内的理解が求められると主張します。
今後の展望:ハイブリッドアーキテクチャ
LLMsは推論とコミュニケーションのインターフェースとして引き続き機能しますが、世界モデルは物理的・空間データパイプラインの基盤インフラとしての地位を確立しつつあります。基盤となるモデルが成熟するにつれて、各アプローチの長所を活かすハイブリッドアーキテクチャの出現が見られます。
例えば、サイバーセキュリティ分野のスタートアップDeepTempoは最近、LogLMを開発しました。これは、LLMsとJEPAの要素を統合して、セキュリティおよびネットワークログから異常とサイバー脅威を検知するモデルです。



