AI Navigate

正則化された潜在ダイナミクス予測は、行動基盤モデルの強力なベースラインとなる

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 正則化された潜在ダイナミクス予測(RLDP)は、潜在状態特徴に直交性正則化を追加し、多様性を維持し、崩壊を防ぐ。
  • このアプローチは、ゼロショット強化学習における複雑な表現学習の目的と同等、またはそれを上回ることができる、単純で競争力のあるベースラインを目指している。
  • 既存の手法が苦戦する低カバレッジデータの状況で高い性能を示すなど、堅牢性を示す。
  • 本研究は RLDP を行動基盤モデル(Behavioral Foundation Models、BFMs)にとって強力なベースラインとして位置づけ、BFMs のための広範な表現学習の必要性を低減する可能性がある。

要旨: Behavioral Foundation Models (BFMs) は、未知の報酬やタスクに適応する能力を持つエージェントを生み出します。これらの方法は、しかし、既存の状態特徴のスパンにある報酬関数に対してのみほぼ最適な方策を生み出すことができるため、状態特徴の選択がBFMの表現力にとって極めて重要となります。結果として、BFMsはさまざまな複雑な目的を用いて訓練され、タスクに有用なスパン特徴を学習するには十分なデータセットのカバレッジを必要とします。本研究では、ゼロショットRLに対してこれらの複雑な表現学習の目的が本当に必要なのかという問いを検討します。具体的には、状態特徴学習のための潜在空間における自己教師付き次状態予測の目的を再検討しますが、そのような目的だけでは状態特徴の類似性を高め、結果としてスパンを縮小させる傾向があることを観察します。我々は、特徴の多様性を維持するための単純な直交正則化を追加するRegularized Latent Dynamics Prediction (RLDP) というアプローチを提案します。これにより、ゼロショットRLにおいて最先端の複雑な表現学習手法に匹敵するか、またはそれを上回ることができます。さらに、従来のアプローチは低カバレッジの状況で性能が低いことを経験的に示しており、RLDPはそれでも成功します。