拡散ベース方策における隠れた報酬の回復

arXiv cs.RO / 2026/5/4

📰 ニュースTools & Practical UsageModels & Research

要点

  • この論文は、エネルギー関数(スカラー)を学習し、その勾配が復元(denoising)場に対応するようにすることで、拡散ベースの生成的アクションモデリングと逆強化学習(IRL)を統一するフレームワーク「EnergyFlow」を提案しています。
  • 最大エントロピーの最適性のもとで、denoising score matching により専門家(expert)の soft Q 関数の勾配が回復できることを示し、報酬抽出を敵対的(adversarial)な IRL なしで可能にします。
  • 学習した場を保存的(conservative)に制約すると、仮説の複雑さが下がり、分布外(out-of-distribution)一般化の上界が締まることを形式的に証明し、回復される報酬の識別可能性も解析しています。
  • スコア推定誤差がアクション嗜好(action preferences)へどのように伝播するかを評価する上界も提示し、複数のマニピュレーション課題で模倣(imitation)の性能が最先端であることを報告しています。
  • さらに、EnergyFlow が抽出する報酬は下流の強化学習の性能を押し上げ、敵対的 IRL と尤度ベースの代替手法の両方を上回るとされています。コードも GitHub で公開されています。

要旨: 本論文では、生成的な行動モデリングと逆強化学習を統一する枠組みであるEnergyFlowを導入する。これは、スカラーのエネルギー関数をパラメータ化し、その勾配がデノージング場となるようにすることで実現する。最大エントロピーの最適性のもとで、デノージング・スコア・マッチングによって学習されたスコア関数が、専門家(expert)のソフトQ関数の勾配を復元することを示す。その結果、敵対的な学習なしに報酬の抽出が可能になる。形式的には、学習された場を保存的(conservative)なものに制約すると仮説の複雑性が減少し、分布外(out-of-distribution)の一般化に関する境界が引き締まることを証明する。さらに、復元された報酬の識別可能性を特徴づけ、スコア推定誤差が行動嗜好へどのように伝播するかを評価する。実験的に、EnergyFlowは様々な操作(manipulation)タスクにおいて最先端の模倣性能を達成し、同時に、下流の強化学習向けの有効な報酬信号を提供する。その性能は、敵対的IRL手法および尤度ベースの代替手法の両方を上回る。これらの結果は、有効な報酬抽出のために必要な構造的制約が、同時に方策の一般化に有益な帰納バイアスとして機能することを示している。コードは https://github.com/sotaagi/EnergyFlow で公開されている。