ゼロショットの世界モデルは発達的に効率的な学習者である

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、限られた学習データで幼い子どもが柔軟な身体理解を獲得する仕組みを説明するための計算仮説として、ゼロショット視覚世界モデル(ZWM)を提案する。
  • ZWMは3つの原理に基づいて構築される:見た目とダイナミクスを分離する疎な時間的因子分解型予測器、近似的な因果推論によるゼロショット推定、そして合成推論によってより複雑な能力へとスケールすること。
  • 著者らは、ZWMが単一の子どもの一人称体験から学習でき、その後複数の身体理解ベンチマークで急速に性能を発揮することを報告している。
  • 結果は、子どもの発達に見られる行動的な兆候と一致するだけでなく、脳のような内部表象を生成するとも主張されており、このアプローチは、人間規模のデータからデータ効率よく学習するAIのための設計図として位置づけられている。

Abstract

幼い子どもたちは、奥行き、運動、物体のまとまり、相互作用、そして物理シーン理解の他の多くの側面を推定するなど、物理的な世界を理解するための早期の能力を示します。子どもは、学習データが極めて限られているにもかかわらず、訓練されていない無数の課題へと一般化することで、柔軟かつデータ効率のよい認知システムです。これは、今日の最良のAIシステムにとっても大きな課題です。ここでは、これらの能力のための新しい計算仮説として、ゼロショット視覚ワールドモデル(ZWM)を導入します。ZWMは3つの原理に基づいています。すなわち、外観とダイナミクスを切り離す、疎で時間的に因数分解された予測器。近似的な因果推論によるゼロショット推定。そして、推論を合成してより複雑な能力を構築することです。私たちは、ZWMが1人の子どもの一人称体験から学習でき、複数の物理理解ベンチマークにわたって素早く有能さ(competence)を生成できることを示します。また、子どもの発達に見られる行動の特徴を幅広く再現し、脳のような内部表現も構築します。本研究は、人間規模のデータから効率的かつ柔軟に学習するための設計図を提示し、子どもの初期の物理理解に対する計算論的な説明の発展と、データ効率のよいAIシステムへの道筋の両方を前進させます。