リヤプノフ誘導セルフアライメント:オフライン安全強化学習のためのテスト時適応

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、オフラインの安全強化学習に対して、再学習やパラメータ更新なしでテスト時に適応するトランスフォーマー型手法SAS(Self-Alignment for Safety)を提案する。
  • SASはセルフアライメント機構として、エージェントが複数の軌道を想像(イメージ)し、リヤプノフの安全条件を満たす軌道区間のみを選択する。
  • 選択された実現可能な軌道区間は、その後インコンテキスト・プロンプトとして再利用され、デプロイ中にエージェントの挙動を安全側へ実行し直す。
  • 著者らは、SASを「リヤプノフ誘導の想像」を制御不変なプロンプトへ変換するものと捉え、トランスフォーマーによるプロンプトを潜在スキル上での階層的RL/ベイズ推論として解釈している。
  • Safety GymnasiumおよびMuJoCoのベンチマークで、SASはコストと失敗を一貫して低減しつつ、報酬(リターン)を維持または改善することを示す。

Abstract

オフライン強化学習(RL)エージェントは、学習データセットと実環境の間にギャップがあるため、展開時にしばしば失敗し、安全でない挙動につながります。これに対処するため、我々はSAS(Self-Alignment for Safety)を提案します。SASは、再学習なしでオフラインの安全RLにおいてテスト時適応を可能にする、トランスフォーマーベースの枠組みです。SASでは主要な仕組みが自己整合(self-alignment)です。テスト時、事前学習済みエージェントがいくつかの想像上の軌道(imagined trajectories)を生成し、リャプノフ条件を満たすものを選択します。これらの実行可能な区間は、その後コンテキスト内プロンプトとして再利用され、パラメータ更新を回避しつつ、エージェントが安全性に向けて挙動を再整合できるようにします。言い換えると、SASはリャプノフに導かれた想像(imagination)を、制御不変(control-invariant)なプロンプトへと変換します。そして、そのトランスフォーマー構造は、プロンプトが潜在スキル上のベイズ推論として機能する、階層的なRL解釈を可能にします。Safety GymnasiumおよびMuJoCoのベンチマークにおいて、SASは一貫してコストと失敗を低減しつつ、リターンを維持、または向上させます。