政策グラディエント導出における「因果性(causality)」ステップについて:フルリターンとリワード・トゥ・ゴーグの教育的な整合性
arXiv cs.AI / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、政策グラディエント導出でしばしば引用される「因果性(causality)」ステップを分析し、フルリターンからリワード・トゥ・ゴーへ移行する際に、軌跡の過去部分に由来する項がなぜ消えるのかを正確に明らかにする。
- ヒューリスティックな説明に頼るのではなく、プレフィックス(接頭辞)軌跡分布とスコア関数の恒等式を用いた、明示的な数学的導出を提示する。
- 著者らは、リワード・トゥ・ゴーを用いても、REINFORCE 型推定量の最終形は変わらないことを示す。差異は、目的関数の分解の仕方が同じ推定量の形をどのように明らかにするかにのみある。
- 概念的には、リワード・トゥ・ゴーは軌跡プレフィックスごとの学習目的の分解から直接導かれ、標準的な因果性の議論はその系として現れるにすぎない。
- 全体として、本研究の貢献は教育的であり、基礎的な政策グラディエント導出における厳密性と直観を高める一方で、基となるアルゴリズム自体は変えない。



