可変ホライズンに対応するニューラルオペレータを用いた変形物操作のためのオンライン安全フィルタ

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、報酬設計による間接的な学習ではなく、変形媒体を扱うロボット操作において明示的な制約を直接満たす安全性の課題に取り組んでいる。
どんな公称（通常）制御方策でも、リアルタイムで最小限に修正することでタスクレベルの安全制約を強制する「制約駆動オンライン安全フィルタ」を提案している。
隠れたPDEダイナミクスの境界入力—出力写像を学習し、再学習なしでロールアウト長が変わっても一般化できる「ホライズン非依存（ホライズンに無関係な）ニューラルオペレータ」を用いる。
境界制御バリア関数によってタスクに関連する出力レベルで安全性を証明し、軽量な二次計画（QP）で解くことで実時間動作を可能にしている。
FluidLabでの流体操作実験では、安全軌道率が未フィルタの基本方策に比べ最大22%向上し、さらに安全領域へ到達するまでのステップ数も減り、信頼性と効率の両立が示されている。

要旨: 流体、布、柔らかい物体のような変形可能メディアを扱うロボット操作タスクにおける安全性クリティカルな制御は、学習に基づく既存の手法が、安全性を報酬設計（reward shaping）を通じて間接的に符号化しているため、配備時に制約充足が保証されないことから、依然として困難です。本論文では、変形可能物体操作のための制約駆動型オンライン安全フィルタを提案します。このフィルタは、任意の名目制御方策を最小限に変更することで、タスクレベルの安全制約を明示的にリアルタイムで強制します。我々の手法は2つの主要な構成要素を組み合わせます。すなわち、基礎となるPDEダイナミクスの境界入力-出力写像を学習し、再学習なしでロールアウト長の変動に一般化する、ホライズンに非依存なニューラルオペレータ、そして軽量な二次計画法（quadratic program）によりタスクに関連する出力レベルで安全性を証明する境界制御障壁関数です。得られる安全制約は境界入力レートに関してアフィン（affine）であるため、リアルタイムのオンラインフィルタリングが可能です。提案手法をFluidLabにおける流体操作タスクで評価したところ、フィルタは未フィルタの基盤方策に比べて安全な軌道率を最大22%向上させるだけでなく、安全集合へ到達するために必要なステップ数も低減しました。これにより、制約駆動型の安全性強制は、報酬設計アプローチよりも信頼性が高く効率的であることが示されます。