Cortex 2.0：現実の産業導入に向けてワールドモデルを「接地（グラウンディング）」する

arXiv cs.RO / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

Cortex 2.0は、長期タスクにおけるリスクに脆いリアクティブなVision-Language-Action（VLA）方策に対して、リアクティブ制御からプラン＆アクトへ転換することで対処します。
システムは視覚潜在空間上で候補となる将来軌道を生成し、期待成功度と効率性の観点でスコアリングしたうえで、最も高いスコアの計画のみを実行します。
シングルアーム／デュアルアームの操作プラットフォームで、ピック＆プレース、アイテム／トラッシュの仕分け、ねじの仕分け、シューボックスの開梱の4タスクを評価した結果、最先端のVLAベースラインを一貫して上回りました。
Cortex 2.0は、散らかった環境、頻繁な遮蔽、接触を伴う作業などの要素が強い非構造環境で特に信頼性が高く、リアクティブ方式の破綻が起きやすい領域でも有効であることが示されました。

概要: 産業用ロボットによる操作には、実体、タスク、そして変化する物体分布にまたがって、長い時間軸にわたる信頼性の高い実行が求められます。ビジョン・言語・アクション（Vision-Language-Action）モデルは強力な汎化性能を示しているものの、本質的にはリアクティブ（反応的）です。将来の可能性を評価せずに、現在の観測に基づいて次の行動を最適化することで、長期タスクにおける失敗の連鎖（compounding failure modes）に対して脆弱になります。Cortex 2.0は、視覚的潜在空間（visual latent space）で候補となる将来の軌道を生成し、それらを期待される成功と効率でスコアリングし、最も高く評価された候補にのみコミットすることで、反応的制御から「計画して実行する（plan-and-act）」へと転換します。私たちは、単腕および双腕の操作プラットフォーム上で、複雑さを増していく4つのタスク（ピック＆プレース、アイテムとゴミの仕分け、ねじの仕分け、シューズボックスの開梱）に対してCortex 2.0を評価します。Cortex 2.0は一貫して最先端のVision-Language-Actionベースラインを上回り、すべてのタスクにおいて最高の結果を達成します。さらに、重い散乱（clutter）、頻繁な遮蔽（occlusions）、接触を伴う操作（contact-rich manipulation）によって特徴づけられる非構造環境においても、システムは信頼性を維持し、反応的ポリシーが失敗する状況でも機能します。これらの結果は、ワールドモデルに基づく計画が、複雑な産業環境においても確実に動作し得ることを示しています。