リヤプノフ誘導セルフアライメント：オフライン安全強化学習のためのテスト時適応

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、オフラインの安全強化学習に対して、再学習やパラメータ更新なしでテスト時に適応するトランスフォーマー型手法SAS（Self-Alignment for Safety）を提案する。
SASはセルフアライメント機構として、エージェントが複数の軌道を想像（イメージ）し、リヤプノフの安全条件を満たす軌道区間のみを選択する。
選択された実現可能な軌道区間は、その後インコンテキスト・プロンプトとして再利用され、デプロイ中にエージェントの挙動を安全側へ実行し直す。
著者らは、SASを「リヤプノフ誘導の想像」を制御不変なプロンプトへ変換するものと捉え、トランスフォーマーによるプロンプトを潜在スキル上での階層的RL／ベイズ推論として解釈している。
Safety GymnasiumおよびMuJoCoのベンチマークで、SASはコストと失敗を一貫して低減しつつ、報酬（リターン）を維持または改善することを示す。

Abstract

オフライン強化学習（RL）エージェントは、学習データセットと実環境の間にギャップがあるため、展開時にしばしば失敗し、安全でない挙動につながります。これに対処するため、我々はSAS（Self-Alignment for Safety）を提案します。SASは、再学習なしでオフラインの安全RLにおいてテスト時適応を可能にする、トランスフォーマーベースの枠組みです。SASでは主要な仕組みが自己整合（self-alignment）です。テスト時、事前学習済みエージェントがいくつかの想像上の軌道（imagined trajectories）を生成し、リャプノフ条件を満たすものを選択します。これらの実行可能な区間は、その後コンテキスト内プロンプトとして再利用され、パラメータ更新を回避しつつ、エージェントが安全性に向けて挙動を再整合できるようにします。言い換えると、SASはリャプノフに導かれた想像（imagination）を、制御不変（control-invariant）なプロンプトへと変換します。そして、そのトランスフォーマー構造は、プロンプトが潜在スキル上のベイズ推論として機能する、階層的なRL解釈を可能にします。Safety GymnasiumおよびMuJoCoのベンチマークにおいて、SASは一貫してコストと失敗を低減しつつ、リターンを維持、または向上させます。

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

Reddit r/MachineLearning

エージェントの「アムネジア」とヘンリー・モライソンの事例

Dev.to

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

Dev.to

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

Dev.to

リヤプノフ誘導セルフアライメント：オフライン安全強化学習のためのテスト時適応

要点

Abstract

関連記事

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

ベクタDBとANN vs PHEの対立：実用的な回避策はある？

エージェントの「アムネジア」とヘンリー・モライソンの事例

Azure Weekly：GPT-5.5がFoundryに到着する中、MicrosoftとOpenAIが提携を再編

2026年のOpenAI Codexにおける実証済みのパターン：プロンプト、検証、ゲートウェイのガバナンス

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer