要旨: 本研究ノートは、多目的強化学習(MORL)と、より一般的な単一目的強化学習(RL)との間に、従来見落とされてきた区別を特定する。これまで、非線形な効用関数を用いるMORLエージェントの最適方策は、現在の環境状態だけでなく、これまでに蓄積された報酬のある指標にも基づいて条件付けされる必要があることが指摘されてきた。これは一般に、環境で観測された状態に、過去の報酬の割引和を連結して拡張状態を作ることで実装される。拡張状態はMORLの文献で広く用いられているが、その使用により生じる含意のうち、これまで報告されていないものがある。すなわち、(それ以上の学習が不要であるとしても)導入後にエージェントが報酬信号(またはその代理)への継続的なアクセスを持つ必要がある、という点である。本ノートでは、このことがなぜ起きるのかを説明し、この要件がもたらす実務上の影響を検討する。
増強された状態を用いる多目的強化学習は、デプロイ後に報酬が必要になる
arXiv cs.LG / 2026/4/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、多目的強化学習(MORL)と従来型の単一目的RLの間に、これまで見落とされてきた重要な違いを指摘し、非線形の効用関数を用いる場合に最適なMORLポリシーが過去の報酬情報に依存することを強調しています。
- 一般的な「増強された状態(augmented state)」手法—現在の環境状態と過去の報酬の割引和を結合する—は、デプロイ後も報酬信号(またはその代理情報)へアクセスできることをエージェントに要求することを示します。
- 増強状態ポリシーが、追加の学習が不要であってもデプロイ後に報酬(または同等の代理)を必要とする根本理由を説明しています。
- さらに、この要件がMORLシステムの実運用上の必須条件になるため、デプロイ時の実務的な影響(実装・運用上の制約)について検討しています。



