最近、強化学習と神経科学の関係についてよく考えていますが、従来の枠組みには何か捉えきれていない部分があると感じています。
人々はこの二つの分野が並行して発展したと言うことが多いです。しかし歴史的には、むしろ螺旋のように感じられます。
アイデアは神経科学から計算モデルへ、そして再び戻ってきます。各転回は互いを鋭くします。
この点についての深掘りシリーズを執筆することを検討しており、仮に“The RL Spiral.”と名付ける予定です。目的は、時間の経過とともに二つの分野間を往来するアイデアの移動をたどり、それが現代の強化学習をどのように形作ってきたかを追跡することです。
私が検討しているトピック:
- ソーンダイク、行動主義、報酬学習の起源
- 報酬予測誤差信号としてのドーパミン
- Temporal Difference 学習とSutton–Barto枠組み
- 神経科学の実験がRLアルゴリズムに与えた影響(そしてその逆も)
- Actor–Criticと基底核の並行
- サイバネティクスとActive Inference
- 動物とエージェントにおける探索と好奇心
- 現代の深層RLとワールドモデルが神経科学から学べる教訓
このような企画がここで興味を引くかどうか、興味があります。
提案も大歓迎です。
RL ↔ 神経科学の結びつきのどの部分を最も深掘りしてほしいですか?

