このチュートリアルでは、ピクセル観測から直接、知覚・計画・予測・再計画を学習する、身体化された(embodied)シミュレーション用のビジョンエージェントを構築します。エージェントが記号的な状態変数ではなくRGBフレームを観測する、完全にNumPyでレンダリングされたグリッドワールドを作成し、簡略化したVision-Language-Action風のパイプラインをシミュレートできるようにします。軽量なワールドモデルを訓練します[…]
記事 潜在的なワールドモデリングとモデル予測制御による、軽量なビジョン・ランゲージ・アクション風の身体化エージェントを構築する方法 は、まず MarkTechPost に掲載されました。



