損失を報酬にできるのか?Titanicを強化学習として見たときの整理
Qiita / 2026/3/22
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- ロジスティック回帰の loss の意味を Reinforcement Learning の報酬設計に結びつける観点を整理した。
- Titanic を環境・状態・行動・報酬の設計に落とし込み、RL 的視点の適用可能性と課題を整理している。
- policy gradient などの RL 手法を適用する際の報酬設計の影響・探索とデータ効率のトレードオフを解説している。
- 現実データでの RL framing の限界と、教師あり学習との比較から得られる洞察をまとめている。
はじめに
前回は、ロジスティック回帰の loss が何を表しているのかを自分なりに整理した。
その流れで次に気になったのが、
損失を報酬にできるのか
Titanic を強化学習として見るとどうなるのか
なぜ Q 学習より policy gradient のほうが自然なの...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →



