PhysMem：ロボット操作のためのテスト時物理メモリのスケーリング

arXiv cs.RO / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モデルパラメータを更新せずにテスト時の相互作用から物体固有の物理挙動を学べるようにする、VLMベースのロボット計画のためのメモリフレームワーク「PhysMem」を提案しています。
PhysMemは、相互作用の経験を記録し、物理に関する仮説候補を生成し、計画に反映する前に狙いを定めた検証（実験）でそれらを妥当化します。
中核となる設計は「適用の前に検証」であり、摩擦や安定性などの条件が変わる際に、過去に得た経験への硬直的な依存を抑えます。
4つのVLMバックボーンにわたる複数のシミュレーションベンチマークと、3つの実世界の操作タスクで評価した結果、レンジの大きい改善が示され、レンガの挿入タスクでは直接の経験検索に対して76%の成功率（23%）を達成しました。
実機での30分間の運用セッションにおいても継続的な改善が観測され、テスト時インタラクションのループが実用上有効であることを示唆します。

要旨: 信頼できる物体操作には、物体や環境によって異なる物理特性を理解することが必要です。視覚言語モデル（VLM）プランナーは摩擦や安定性について一般的な観点から推論できますが、特定のボールがある表面上でどのように転がるか、またはどの石が安定した土台を提供するかを、直接の経験なしに予測できないことがよくあります。私たちは、モデルパラメータを更新せずに、テスト時の相互作用から物理原理を学習できるようにするメモリフレームワーク PhysMem を提案します。このシステムは経験を記録し、候補となる仮説を生成し、将来の判断を導くために検証済みの知識を昇格させる前に、的を絞った相互作用によってそれらを検証します。中心的な設計上の選択は、適用の前に検証することです。システムは、取得した経験をそのまま適用するのではなく、新しい観測に対して仮説をテストします。これにより、物理条件が変化したときに、過去の経験への硬直した依存を低減します。PhysMem を、4つのVLMバックボーンにまたがる3つの現実世界の操作タスクおよびシミュレーションベンチマークで評価します。制御されたレンガの挿入タスクでは、原理に基づく抽象化が、直接の経験取得に対して 23% に対する 76% の成功を達成し、また現実世界での実験では、30分間のデプロイメントセッションを通じて一貫した改善が示されます。