偏った夢:潜在空間モデルにおける認識論的不確実性定量化の限界

arXiv cs.LG / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデルベース強化学習における潜在ダイナミクスモデルでの認識論的不確実性定量化を調査し、Dreamer系の再帰的状態空間モデルに焦点を当てています。
  • 著者らは、潜在遷移が潜在空間でよく表現された領域に偏り、真の環境ダイナミクスと一致しないアトラクタ挙動が生じうることを示します。
  • 環境側のダイナミクスの食い違いが潜在空間に現れない場合があるため、不確実性推定の信頼性が損なわれ、探索やモデルの誤りを利用した振る舞いの抑制に不十分となります。
  • これらのアトラクタ状態は高報酬領域に位置することが多く、その結果、潜在ロールアウトが予測報酬を体系的に過大評価することが分かります。
  • 総じて、本研究は潜在ダイナミクスモデルにおける認識論的不確実性推定の重要な限界を明らかにし、この手法のより批判的な評価の必要性を促します。

Abstract

モデルベース強化学習は、自己受容(proprioceptive)入力に基づいて動作する物理ダイナミクス・モデルと、高次元の画像観測に基づいて動作する潜在ダイナミクス・モデルを区別する。顕著な潜在アプローチとして、Dreamerファミリーで用いられている再帰状態空間モデルがある。探索を促し、モデルの搾取(exploitation)を緩和するための、認識論的不確実性(epistemic uncertainty)推定による定量化は物理ダイナミクス・モデルでは確立されている一方で、潜在ダイナミクス・モデルへの移植は十分に検討されていない。 我々は実験的に、潜在遷移が潜在空間のよく表現された領域へ偏ることを示し、その結果として、真の環境ダイナミクスから逸脱しうるアトラクタ挙動が現れることを明らかにする。 そのため、環境ダイナミクスの不一致は潜在空間には現れない可能性があり、認識論的不確実性推定の信頼性が損なわれる。 さらに、これらのアトラクタはしばしば高報酬(high-reward)の領域に位置するため、潜在ロールアウトは一貫して予測報酬を過大評価する。 我々の結果は、潜在ダイナミクス・モデルにおける認識論的不確実性推定の重要な限界を示すとともに、この手法に対するより批判的な評価の必要性を動機づける。