みなさん、こんにちは。
私は昨年の夏に、数学の修士課程を修了しました。ここ最近は、ML/DLやLLMについてもっと理解しようとしていて、LLMとその推論能力に関する本を読んだり、時々論文を読んだりしています(特に数学のためのAIに興味があります)。WikipediaでRLについて読んだときにも、それがとても面白そうだと感じたので、RLとLLMとのつながりについてもっと学びたいと思いました。
RLに関する定番の本は「Sutton and Barto」であり、LLMが本格的に人気になる前の2020年に出版されたため、PPOやGRPOなどについては触れられていません。そこで、より焦点を絞って学べるようにするために、LLMにRLの本から関連しそうな章を選んでもらうよう依頼しました。すると、彼らは第1章(導入)、第3章(有限MDP)、第6章(TD学習)、そして第9章(近似によるオンポリシー予測)、第10章(オンポリシー...)、第11章(近似によるオンポリシー制御)、第13章(ポリシー勾配法)を選びました。
そこで、次のような質問があります。もしよければ皆さんに助けてもらえないかと思っています。
その選び方についてどう思いますか? もっと良いおすすめはありますか? モダンな「RL-for-LLM」の論文を読む前に、全体像を理解するための第一歩として良いと思いますか? それともアルバータ大学のオンラインRLコースにそのまま進むべきでしょうか? Joseph Suarezは「An Ultra Opinionated Guide to Reinforcement Learning」を書いていますが、私の理解では、それは主にLLMではないRLの話だと思っています。
お時間をいただきありがとうございます!
[リンク] [コメント]




