TAIL-Safe：模倣学習ポリシーのためのタスク非依存な安全モニタリング

arXiv cs.RO / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本論文では、初期条件への極端な感度や近似誤差によるドリフト蓄積のために失敗しうる模倣学習（IL）ポリシー向けの、安全監視手法「TAIL-Safe」を提案している。
TAIL-Safeは、状態・行動の組に対して長期的な安全スコアを出力するリプシッツ連続なQ値関数を学習し、その根拠として視認性、認識可能性、把持可能性というタスク非依存の3つの短期基準を用いる。
Q関数のゼロ上側集合（zero-superlevel set）を「安全集合」として定義し、名目ポリシーがこの集合の外にある行動を提案した場合に介入する。
安全でない行動が提案された際には、Nagumoの定理に着想を得た回復メカニズムを用い、Q関数への勾配上昇でポリシーを安全側へ誘導する。
Gaussian Splattingによる高忠実度デジタルツインを用いて安全に失敗データを収集し、Franka Emikaロボットで、TAIL-Safeに導かれることでフローマッチング・ポリシーが実行時摂動下でも一貫したタスク成功を達成できることを示している。

要旨: 近年の模倣学習（IL）アルゴリズムであるフローマッチングや拡散ポリシーは、複雑な操作課題を学習する上で目覚ましい性能を示しています。しかし、これらのポリシーは、初期条件への極端な感度や、補うことのできない近似誤差によってドリフトが増幅してしまうため、訓練分布の範囲内で動作している場合でも失敗することがしばしばあります。これにより、分布外シナリオが広く存在する現場でILポリシーを展開することは安全ではありません。安全に展開するための前提条件は、ポリシーがデモンストレーションから学習したのと同じやり方でタスクを実行できるかどうかを判断できるようにすることです。本論文は、学習済みのILポリシーに対し、経験的に学習済みタスクの完了に成功する安全集合を同定するための、原理に基づくアプローチであるTAIL-Safeを提示します。私たちは、状態と行動の組を、3つの短期的でタスク非依存な基準である可視性、認識可能性、把持可能性に基づいて、長期的な安全スコアへと写像する、リプシッツ連続なQ値関数を提案します。この関数のゼロ上超準集合は、状態-行動の組に対する経験的な制御不変集合を特徴づけます。名目上のポリシーがこの集合の外側で行動を提案した場合には、ナグモーの定理に触発された回復メカニズムを適用し、Q値関数への勾配上昇を用いてポリシーを安全へと導き戻します。このQ値関数を学習するために、ガウス・スパッティングを用いて高忠実度のデジタルツインを構築し、物理ハードウェアにリスクを与えずに破綻データを体系的に収集できるようにします。Franka Emikaロボットでの実験により、実行時の摂動で失敗するフローマッチングポリシーが、提案するTAIL-Safeによって導かれることで一貫したタスク成功を達成することを示します。