安全のための制約付きデコーディング:ロボット航行基盤モデル

arXiv cs.RO / 2026/4/17

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、安全のための制約付きデコーディング枠組みSafeDecを提案し、データ駆動型ロボット基盤モデルが持ちがちな「行動の正しさ(behavioral correctness)」の欠如に対処します。
  • SafeDecは、Signal Temporal Logic(STL)式として表された安全要件を、前提とした力学モデルの下で生成された行動がSTL制約を満たすことを“証明可能”にする形で、実行時の行動生成を制御します。
  • この手法は再学習を不要とし、ポリシーに依存しない(policy-agnostic)ため、推論時の介入としてさまざまなロボット航行基盤モデルに適用できます。
  • CHORESベンチマークのタスクを、手続き的に生成された多数の環境(数百)で評価した結果、SafeDecは危険な行動の除外だけでなく条件付き行動生成にも有用であることが示されました。
  • この手法は自己回帰(次のトークン/行動)生成を想定しており、形式手法と基盤モデル型ロボティクスを組み合わせて、安全な航行挙動を実現することを狙っています。

Abstract

ロボティック・ファウンデーションモデルの開発における近年の進歩は、ロボットシステムにおいて有望なエンドツーエンドかつ汎用的な能力をもたらしてきました。これらの方策は、シミュレートおよび現実世界の軌跡からなる膨大なデータセットで学習されており、マルチモーダルな観測を直接、物理的な実行のための行動列へと写像します。有望な現実世界での能力があるにもかかわらず、これらのモデルは依然としてデータ駆動であり、そのため行動の正しさについての明示的な概念を欠いています。私たちはこのギャップを埋めるために、Signal Temporal Logic(STL)式として表現された安全性仕様を強制する、自 autoregressive(自己回帰的)かつトランスフォーマー型のロボットナビゲーション・ファウンデーションモデル向けの制約付きデコード枠組みである SafeDec を導入します。私たちの方法は、再学習を行うことなく、ランタイム時に仮定されたダイナミクスの下で生成された行動がSTL仕様を(証明可能な形で)満たすことを保証しつつ、基盤となる方策には依存しない(無関係である)まま維持します。私たちは SafeDec を、CHORES ベンチマークにあるタスクで評価し、数百の手続き的に生成された環境にまたがる最先端の身体化ナビゲーション方策に対して、デコード時の介入が危険な行動のフィルタリングに有用であるだけでなく、条件付き行動生成にも有用であることを示します。動画は constrained-robot-fms.github.io で利用可能です