HRLエージェントのためのマルチ解像度スキル（MRS）

arXiv cs.RO / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、機敏さを要するタスクで階層型強化学習（HRL）が弱くなる主因として、サブゴールに基づくHRLでは到達可能性や現在状態からの時間的距離といった制約なしにマネージャの目標表現が学習されがちである点を特定します。
サブゴール距離の最適値はタスクと状態の両方に依存し、近いサブゴールは局所的な制御を高める一方で予測ノイズを増やし、遠いサブゴールは運動を滑らかにするが幾何学的な精度を損なうことを示します。
著者らはMulti-Resolution Skills（MRS）を提案し、固定された時間ホライズンごとに特化した複数の目標予測モジュールを学習し、現在の状態に応じてそれらをメタコントローラで選択します。
実験では、MRSが固定解像度のベースラインを上回り、DeepMind Control Suite、Gym-Robotics、長期ホライズンのAntMazeにおいてHRLとノンHRLの最先端手法の性能ギャップを大きく縮小することを示します。
この研究は、目標予測に時間ホライズンを明示的に取り込むことで、長期計画と局所的な機敏さの両立にHRLが有利になる可能性を示唆しています。

Abstract

階層型強化学習（HRL）は方策をマネージャとワーカーに分解し、長期の計画を可能にする一方で、俊敏さを要するタスクでは性能ギャップが生じます。私たちはその根本原因を特定します。すなわち、サブゴールに基づくHRLでは、マネージャの目標表現が現在の状態からの到達可能性や時間的距離に関する制約なしに学習されることが多く、その結果、正確な局所サブゴールの選択が妨げられます。さらに、最適なサブゴール距離はタスクと状態の両方に依存することを示します。近いサブゴールは精密な制御を可能にする一方で予測ノイズを増幅し、遠いサブゴールは幾何学的な精度を犠牲にする代わりに、より滑らかな運動をもたらします。固定された時間ホライズンごとに特化した複数の目標予測モジュールを学習することで、これらの問題に対処するMulti-Resolution Skills（MRS）を提案します。そして、現在の状態に基づいてそれらを選択するよう共同学習されたメタコントローラを用います。MRSは一貫して固定解像度のベースラインを上回り、DeepMind Control Suite、Gym-Robotics、ならびに長期ホライゾンのAntMazeタスクにおいて、HRLと非HRLの最先端手法の間にある性能ギャップを大幅に縮小します。[プロジェクトページ: https://sites.google.com/view/multi-res-skills/home]

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も

ITmedia AI+

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

HRLエージェントのためのマルチ解像度スキル（MRS）

要点

Abstract

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得 AIモデル開発で協力も

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

イーロン・マスク氏率いるSpaceX、AIエディタ「Cursor」の買収権を獲得　AIモデル開発で協力も