制約下における世界モデルのための潜在状態設計

arXiv cs.AI / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ワールドモデル研究を「潜在状態設計」として捉え直し、エージェントが構築する状態が、保持すべき情報・捨てるべき情報・将来の機能（予測、制御、計画、記憶、グラウンディング、反事実推論など）を可能にする役割を担うことを重視する。
アーキテクチャや適用領域ではなく、潜在状態の意図された役割（予測的埋め込み、反復的な信念状態、対象/因果構造、潜在アクション・インターフェース、グラウンディングされた計画インターフェース、メモリ基盤）にもとづいて手法を分類する機能的タクソノミーを提案する。
構造ベースの分類では見えにくい重要なギャップとして、予測の十分性と制御の十分性の差、また受動的な動画予測と反事実的な行動モデリングの差を指摘している。
潜在状態構築が満たそうとしている「十分性の制約」に基づいてモデルを評価する枠組みを示し、表現、予測、計画、操作可能性、因果/反事実の支援、記憶、不確実性といった軸で比較する。
結論として、実行可能な世界モデルとは、最も多くの情報を保持するものではなく、状態構築がタスク要件に適合しているものだと主張する。

Abstract

世界モデルは、エージェントにとって、それが構築する状態を通してのみ意味を持つ。その状態は、いくつかの情報を保持し、別の情報を捨て、さらにある将来の機能を支える必要がある：予測、制御、計画、記憶、グラウンディング、または反実仮想（カウンターファクト）推論。本論文は、世界モデル研究を「十分性制約のもとでの潜在状態設計」として扱う。本研究では、アーキテクチャや応用領域ではなく、「潜在状態が何のために使われるのか」によって手法を束ねる機能的分類（ファンクショナル・タクソノミー）を提案する。具体的には、予測的埋め込み、反復（リカレント）信念状態、物体／因果構造、潜在行動インターフェース、グラウンディングされた計画インターフェース、記憶基盤である。これらの役割は、アーキテクチャに基づく分類では見えなくなる差異を明らかにする。たとえば、「予測のための十分性」と「制御のための十分性」の間のギャップ、そして「受動的なビデオ予測」と「反実仮想的な行動モデリング」の間のギャップである。本分類は、潜在状態が満たすように設計された十分性制約に基づいてモデルを評価するための枠組みを支える。私たちは、表現、予測、計画、制御可能性、因果／反実仮想のサポート、記憶、不確実性の7つの軸に沿って手法を比較する。その結果得られる行列を、潜在状態が何を保持し、何を捨て、何を可能にするのかを診断するために用いる。続く結論は、「行動可能な世界モデル」とは、構築される状態がタスクに一致しているものであって、最も多くの情報を保持するものではない、というものである。