安全な協調マニピュレーションにおける行動変化検出のための信念ダイナミクス

arXiv cs.LG / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、共有作業空間にいるロボットが、協調エージェントがエピソードの途中で行動戦略を切り替えると安全でなくなり得て、ロボットが古い前提のまま動き続けてしまう問題に取り組む。
  • ManiSkillの共有作業空間におけるマニピュレーション課題で、10種類のレジーム(状況)切替検出手法にわたって評価したところ、検出を可能にすることで切替後の衝突を52%削減できるが、検出許容度によって信頼性は大きく変動する。
  • 現実的な許容度 ±3ステップでは検出性能が86%から30%まで幅広く分布し、一方でより緩い許容度 ±5ではすべての手法が100%に到達することから、実運用上の制約が示される。
  • 著者らはUA-TOMを提案する。UA-TOMは軽量な信念(belief)追跡モジュールであり、凍結した視覚言語アクション制御バックボーンに対して、選択的な状態空間ダイナミクス、因果的注意(causal attention)、予測誤差シグナルを付加する。これにより検出率(±3で85.7%)が向上し、近距離での時間(4.8ステップ)が短縮され、さらに提案手法の指標ではOracleを上回る。
  • UA-TOMの解析によれば、レジーム切替により隠れ状態(hidden-state)更新の大きさが17倍に増加し、その値は約10タイムステップで減衰する。推論オーバーヘッドは7.4 ms(50 msの制御予算の14.8%)であり、加えて他ドメインであるOvercookedの実験でも相補的な行動が検証された。

Abstract

共通の作業空間で動作するロボットは、タスク実行中にその行動が変化し得る他のエージェントと、安全な協調を維持しなければなりません。共同作業エージェントがエピソードの途中で戦略を切り替えると、古い前提のまま継続することで危険な行動につながり、衝突リスクが増加します。そのため、このような行動のレジーム(状態体系)変化を確実に検出することが重要です。私たちは、ManiSkillの共有作業空間での操作タスクにおける、制御された非定常性下でのレジーム切り替え検出を研究します。10種類の検出手法と5つのランダムシードにわたって、検出を可能にするとスイッチ後の衝突が52%減少します。しかし、平均性能には大きな信頼性の差が隠れています。現実的な許容誤差が+-3ステップの場合、検出範囲は86%から30%まで幅がありますが、+-5ステップでは全ての手法が100%を達成します。私たちは、軽量な信念追跡モジュールであるUA-TOMを導入します。これは、凍結した視覚言語行動(VLA)制御バックボーンに対して、選択的な状態空間ダイナミクス、因果的注意、予測誤差信号を用いることで拡張を行います。5つのシードと1200エピソードにおいて、UA-TOMは、非支援手法の中で最も高い検出率(+-3で85.7%)と最も短い近距離時間(4.8ステップ)を達成し、Oracle(5.3ステップ)を上回ります。分析によると、隠れ状態の更新量はレジーム切り替えで17倍に増加し、およそ10タイムステップで減衰します。一方で、離散化ステップはほぼ一定値へ収束します(Delta_t 約0.78)。これは、入力依存のゲーティングではなく、学習されたダイナミクスによる感度を示しています。Overcookedにおけるクロスドメイン実験では、因果的注意と予測誤差信号の相補的な役割が示されます。UA-TOMは、7.4 msの推論オーバーヘッド(50 msの制御予算の14.8%)を導入するだけで、基盤となるポリシーを変更することなく、信頼性の高いレジーム切り替え検出を可能にします。