政策グラディエント導出における「因果性(causality)」ステップについて:フルリターンとリワード・トゥ・ゴーグの教育的な整合性

arXiv cs.AI / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、政策グラディエント導出でしばしば引用される「因果性(causality)」ステップを分析し、フルリターンからリワード・トゥ・ゴーへ移行する際に、軌跡の過去部分に由来する項がなぜ消えるのかを正確に明らかにする。
  • ヒューリスティックな説明に頼るのではなく、プレフィックス(接頭辞)軌跡分布とスコア関数の恒等式を用いた、明示的な数学的導出を提示する。
  • 著者らは、リワード・トゥ・ゴーを用いても、REINFORCE 型推定量の最終形は変わらないことを示す。差異は、目的関数の分解の仕方が同じ推定量の形をどのように明らかにするかにのみある。
  • 概念的には、リワード・トゥ・ゴーは軌跡プレフィックスごとの学習目的の分解から直接導かれ、標準的な因果性の議論はその系として現れるにすぎない。
  • 全体として、本研究の貢献は教育的であり、基礎的な政策グラディエント導出における厳密性と直観を高める一方で、基となるアルゴリズム自体は変えない。

Abstract

政策勾配の導入的なプレゼンテーションでは、しばしばREINFORCE推定量を全軌道のリターンを用いて導出し、その後「因果性」によって、全リターンは報酬・to・go(reward-to-go)で置き換えてよい、と述べます。この主張は正しいものの、十分な厳密さをもって提示されないことが多く、その結果として、過去の報酬項がどこで消えるのかが不明確なままになっています。本短い論文では、そのステップを切り出し、prefix(前半)軌道の分布とスコア関数の恒等式に基づく、数学的に明示的な導出を与えます。得られた説明は推定量を変更しません。貢献は概念的であり、報酬・to・goを、全リターンの事後的な(post hoc)な無偏置換として提示するのではなく、目的がprefix軌道に分解された時点で、報酬・to・goが直接に生じることを示します。この定式化では、通常の因果性に基づく議論が、追加のヒューリスティック原理としてではなく、導出の系(corollary)として回収されます。