OFlow：物体認識に基づく時系列フローマッチングを注入することでロバストなロボット操作を実現

arXiv cs.RO / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、ロボット操作において将来の状況変化の予測と、複雑なシーン内のタスクに関係する物体情報を同時に扱うことで性能を高める枠組みとしてOFlowを提案している。
従来のVLAが主に現在フレームに基づいて動作し、将来予測と物体認識的推論が別々の潜在空間で学習されがちであるのに対し、OFlowはそれらを共通のセマンティック潜在空間に統合する。
OFlowは時間的フローマッチングにより将来の潜在表現を予測し、そこから物体に配慮した表現へと因数分解することで、物理的に重要な手がかりを強調しつつタスクに無関係な変動を抑える。
さらに、連続的なアクション生成をこれらの予測済み・物体認識的な潜在表現に条件付けすることで、分布シフト下でもより信頼性の高い制御を可能にする。
LIBERO、LIBERO-Plus、MetaWorld、SimplerEnvの各ベンチマークと実世界タスクでの実験結果から、物体認識に基づく先読みがロバスト性と成功率を一貫して高めることが示されている。

Abstract

堅牢なロボット操作には、シーンが時間とともにどのように変化するかを予測するだけでなく、複雑なシーンの中でタスクに関連する物体を認識することも必要です。しかし、既存のVLAモデルには2つの制限があります。これらは通常、現在のフレームに対してのみ行動し、将来予測と物体に着目した推論はしばしば別々の潜在空間で学習されています。私たちは、OFlow（VLAへObject-Aware Temporal Flow Matchingを注入すること）を提案します。この枠組みは、時間的な先見性と物体に着目した推論の両方を、共有された意味的潜在空間で統合することで、これら2つの制限に対処します。提案手法は、時間的フローマッチングによって将来の潜在表現を予測し、それらを物体に着目した表現に分解することで、物理的に関連する手がかりを強調しつつ、タスクに無関係な変動を抑制します。そして、これらの予測に基づいて連続的な行動生成を条件付けます。OFlowをVLAパイプラインに統合することで、提案手法は分布シフト下でもより信頼性の高い制御を可能にします。LIBERO、LIBERO-Plus、MetaWorld、SimplerEnvのベンチマーク、および実世界タスクにまたがる大規模な実験により、物体に着目した先見性が一貫して頑健性と成功率を高めることが示されます。