マスク・ワールドモデル:ロバストなロボット方策学習のために「重要なもの」を予測する

arXiv cs.RO / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、一般istロボット方策学習向けの現在のワールドモデル手法が、高精細なRGB動画を予測することで動的背景や照明変化などの無関係な視覚要因に過適合しやすいと主張している。
  • 提案手法Mask World Model(MWM)は、動画拡散を用いてピクセルではなく意味マスクの時間変化を予測し、幾何学的な情報ボトルネックを設ける。
  • 意味的な接触・ダイナミクスに注目することで、視覚ノイズを抑えつつ本質的な物理ダイナミクスを捉えることを狙っている。
  • マスク・ダイナミクスのバックボーンに拡散ベースの方策ヘッドを統合し、エンドツーエンドの制御を実現する。
  • LIBEROおよびRLBenchのシミュレーション評価に加え、実世界実験やロバスト性検証(ランダムなトークン剪定)でも、MWMがRGBベースのワールドモデルより優れ、テクスチャ情報喪失に対しても強い耐性を示した。