広告

Graph-of-Thoughtsによる報酬進化:強化学習のためのバイレベル言語モデルフレームワーク

arXiv cs.RO / 2026/3/24

💬 オピニオン

要点

  • 本論文は、LLMを用いて報酬関数を生成し、反復的に改良するバイレベル強化学習フレームワーク「Reward Evolution with Graph-of-Thoughts(RE-GoT)」を提案する。

広告