リヤプノフ誘導セルフアライメント:オフライン安全強化学習のためのテスト時適応
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、オフラインの安全強化学習に対して、再学習やパラメータ更新なしでテスト時に適応するトランスフォーマー型手法SAS(Self-Alignment for Safety)を提案する。
- SASはセルフアライメント機構として、エージェントが複数の軌道を想像(イメージ)し、リヤプノフの安全条件を満たす軌道区間のみを選択する。
- 選択された実現可能な軌道区間は、その後インコンテキスト・プロンプトとして再利用され、デプロイ中にエージェントの挙動を安全側へ実行し直す。
- 著者らは、SASを「リヤプノフ誘導の想像」を制御不変なプロンプトへ変換するものと捉え、トランスフォーマーによるプロンプトを潜在スキル上での階層的RL/ベイズ推論として解釈している。
- Safety GymnasiumおよびMuJoCoのベンチマークで、SASはコストと失敗を一貫して低減しつつ、報酬(リターン)を維持または改善することを示す。



