階層型行動空間（Hierarchical Behaviour Spaces）

arXiv cs.AI / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、階層型強化学習手法「階層型行動空間（HBS）」を提案し、オプションごとに単一の報酬関数ではなく、複数の事前定義報酬関数の線形結合として行動を表現します。
コントローラが報酬関数の重みを学習することで、HBSはより表現力の高い政策（ポリシー）と行動の集合を表せるようになります。
NetHack Learning Environment での実験では、HBSが強い性能を示し、このアプローチが複雑なベンチマークでも有効であることが確認されます。
著者らは、一般的な考え方とは逆に、HBSにおける階層の利点は長期的な推論よりも探索（エクスプロレーション）の改善にあることを一連の実験で示しています。

日経XTECH

Reddit r/artificial

Dev.to

Reddit r/LocalLLaMA

Tech.eu