DiscreteRTC:離散拡散ポリシーは自然な非同期エグゼキュータである

arXiv cs.RO / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、物理環境で動作するAIには非同期実行(「行動しながら考える」)が必要であり、同期型エグゼキュータのチャンク間停止は、推論が速くても動的タスクに致命的だと主張する。
  • それはリアルタイム・チャンク(RTC)を、確定した行動を凍結し残りを生成する「インペインティング」的な枠組みとして整理し、フローマッチング・ポリシーを用いたRTCは推論時の補正に依存するため構造的に不利だと述べる。
  • 提案手法のDiscreteRTCは、行動を反復的なアンマスキングで生成する離散拡散ポリシーを用い、外部補正なしで非同期実行に自然に適合すると位置付ける。
  • インペインティング挙動はネイティブな操作として扱うため追加の微調整不要であり、さらに早期停止によって推論コストも削減できるとされる。
  • 動的なシミュレーションベンチマークと実世界の動的マニピュレーション課題で、連続RTCや他のベースラインより高い成功率が得られたと報告されており、特にフローマッチング型RTCに対して実世界の動的ピックで成功率が50%向上したとされる。

Abstract

チャットボットと異なり、物理AIは世界が進化し続ける間に行動しなければなりません。したがって、推論がどれほど高速であっても、同期的実行器のチャンク間における停止(インターチャンク・ポーズ)は、動的タスクにとって致命的です。そのため、「行動しながら考える」異期(非同期)実行は構造的要件であり、リアルタイム・チャンク化(RTC)は、チャンク遷移を補完(inpainting)として作り直すことでそれを実現可能にします。すなわち、確定した行動を凍結し、残りを一貫して生成します。しかし、フローマッチング方策でのRTCは構造的に劣っています。その補完は基礎となる方策からではなく、推論時の修正に由来するため、事前学習の恩恵が乏しく、特定の微調整、ヒューリスティックな誘導、さらに計算量の増加が必要となり、レイテンシが膨らみます。本研究では、「反復的にマスクを外して(unmasking)行動を生成する」離散拡散方策が、これらすべての制約を一度に解決できる自然な非同期実行器であることを見出します。補完はそれ自身のネイティブな操作であるため、微調整は不要です。また、早期停止を行うことで、適応的な誘導がさらに得られ、推論コストも削減されます。我々はDiscreateRTCを提案します。これは、外部からの補正ではなく、ネイティブなunmaskingによって置き換えるものです。そして、動的なシミュレーション用ベンチマークおよび現実世界の動的な操作タスクにおいて、連続的RTCやその他のベースラインよりも高い成功率を達成することを示します。要約すると、DiscreateRTCは、非同期補完のための実装がコード0行で済むなどシンプルであり、さらに、行動をスクラッチから生成する場合と比べて推論時に計算量は0.7倍に抑えられ、現実世界の動的ピック課題でフローマッチングベースのRTCよりも実行時成功率が50%高いという利点があります。より多くの可視化は https://outsider86.github.io/DiscreteRTCSite/ で確認できます。