V-OCBF：オフラインデータから価値に導かれたオフライン制御バリア関数を学習して安全性フィルタを獲得する

arXiv cs.RO / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、オフラインのデモンストレーションから安全性フィルタを学習し、オンライン相互作用なしで状態ごとの厳密な安全性を達成するための枠組みV-OCBF（Value-Guided Offline Control Barrier Functions）を提案する。
従来のセーフ・オフライン強化学習（Safe Offline RL）が、ソフトな期待コスト制約に焦点を当てるのに対し、V-OCBFは、前進不変性を強制することを目的としたニューラル制御バリア関数を学習する。
本手法はモデルフリーであり、システムのダイナミクスモデルへのアクセスを必要としない。その代わりに、時間を通じたバリアの学習のために再帰的な有限差分バリア更新を用いる。
V-OCBFは、分布外（アウト・オブ・ディストリビューション）の行動への感度を低減し、オフラインデータセットで支持される行動に更新を制限するために、expectileに基づく目的関数を用いる。
学習されたバリアは、二次計画法（QP）による実時間コントローラに統合されており、著者らは複数のケーススタディにおいて、タスク性能を強く維持しつつベースラインよりも安全性違反が少ないことを報告している。