World Action Verifier:順逆非対称性による自己改善型ワールドモデル
arXiv cs.LG / 2026/4/3
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、汎用的なワールドモデルに対する自己改善フレームワークである World Action Verifier(WAV)を提案し、最適および準最適な行動の両方において、自身の予測誤りを検出して修正できることを目指す。
- WAVは、行動条件付きの状態予測を2つの検証対象(状態の妥当性と行動到達可能性)に分解し、完全な状態予測よりもデータおよび特徴の非対称性の観点でこれらの方が検証しやすいと論じる。
- この手法は、ワールドモデルに動画コーパスからの多様なサブゴール生成器と、状態特徴の一部から行動を推定する疎な逆モデルを組み込み、サブゴール・推定行動・順方向ロールアウトの間でサイクル整合性を強制する。
- MiniGrid、RoboMimic、ManiSkillの9つのタスクでの実験により、サンプル効率が2倍向上し、下流の方策性能が18%改善したことが示される。
- 本研究は、既存のワールドモデル検証手法が苦手とする、これまで十分に探索されていない状況(レジーム)を対象とし、検証を頑健性とより良い方策学習への実用的な道筋として位置付ける。




