階層型行動空間(Hierarchical Behaviour Spaces)
arXiv cs.AI / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、階層型強化学習手法「階層型行動空間(HBS)」を提案し、オプションごとに単一の報酬関数ではなく、複数の事前定義報酬関数の線形結合として行動を表現します。
- コントローラが報酬関数の重みを学習することで、HBSはより表現力の高い政策(ポリシー)と行動の集合を表せるようになります。
- NetHack Learning Environment での実験では、HBSが強い性能を示し、このアプローチが複雑なベンチマークでも有効であることが確認されます。
- 著者らは、一般的な考え方とは逆に、HBSにおける階層の利点は長期的な推論よりも探索(エクスプロレーション)の改善にあることを一連の実験で示しています。

