要旨: 局所的な予測誤差に基づく好奇心報酬は、訪れたすべての遷移にわたる世界モデルの累積予測誤差を考慮せず、現在の遷移に焦点を当てています。そこで本研究では、C u r i o s i t y - C r i t i c を導入します。これは、この累積目的関数の改善に基づいて固有報酬を与え、扱いやすい1ステップ形式に還元できることを示します。具体的には、それは「現在の予測誤差」と「現在の状態遷移における漸近的な誤差ベースライン」との差です。このベースラインは、世界モデルと並行して訓練される学習済みのクリティックによってオンライン推定します。1つのスカラーを回帰することで、クリティックは世界モデルが飽和するより前に良好に収束し、ノイズ床のオラクル知識なしに、学習可能な遷移へ探索を振り向けます。報酬は学習可能な遷移でより高く、確率的(stochastic)な遷移ではベースラインへと崩れていきます。これにより、予測誤差をオンラインで、認識論的(還元可能な)誤差と、アレアトリック(不可逆な)誤差に実効的に分離します。Schmidhuber(1991)から、学習された特徴空間に基づく変種までの先行する予測誤差に基づく好奇心の定式化は、このベースラインの特定の近似に対応する特殊ケースとして現れます。確率的グリッドワールドに対する実験では、Curiosity-Critic が収束速度と最終的な世界モデルの精度において、予測誤差および訪問回数(visitation-count)のベースラインを上回ることを示します。
Curiosity-Critic:世界モデル学習のための内在的報酬としての累積予測誤差改善を、扱いやすい形にする
arXiv cs.AI / 2026/4/22
💬 オピニオンModels & Research
要点
- この論文は、局所的な予測誤差に基づく一般的な好奇心報酬が、訪問した全遷移にわたる世界モデルの累積予測誤差の変化を考慮していない点を指摘しています。
- 「Curiosity-Critic」を提案し、累積予測目的の改善に結び付いた内在的報酬を導入します。さらに、漸近的な誤差(ベースライン)との差として定義でき、1ステップごとに扱える形へ落とし込めることを示しています。
- 漸近誤差のベースラインは、世界モデルと同時に学習される学習器(critic)によってオンライン推定されるため、ノイズフロアに関するオラクル知識なしで探索を「学習可能な遷移」に誘導できます。
- 確率的グリッドワールドでの実験では、Curiosity-Criticは予測誤差ベースラインや訪問回数ベースラインよりも、収束速度と最終的な世界モデル精度の両面で優れていることが示されています。
- この枠組みは、既知の(還元可能な)エピステミックな誤差と、既知の(不可逆な)アレアトリックな誤差をオンラインで分離し、過去の好奇心手法がベースライン近似の違いとして特別な場合に現れることも説明しています。