階層型行動空間(Hierarchical Behaviour Spaces)

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、階層型強化学習手法「階層型行動空間(HBS)」を提案し、オプションごとに単一の報酬関数ではなく、複数の事前定義報酬関数の線形結合として行動を表現します。
  • コントローラが報酬関数の重みを学習することで、HBSはより表現力の高い政策(ポリシー)と行動の集合を表せるようになります。
  • NetHack Learning Environment での実験では、HBSが強い性能を示し、このアプローチが複雑なベンチマークでも有効であることが確認されます。
  • 著者らは、一般的な考え方とは逆に、HBSにおける階層の利点は長期的な推論よりも探索(エクスプロレーション)の改善にあることを一連の実験で示しています。

階層型行動空間(Hierarchical Behaviour Spaces) | AI Navigate