要旨: 深層強化学習(DRL)アルゴリズムはしばしば大量のデータを必要とし、計画ホライズンが長く複数のサブ目標を含む疎な報酬領域では苦戦します。本論文では、より容易な状況の学習で獲得された部分的な論理的ポリシー仕様を、より困難な設定での学習を導くために転移する、近位政策最適化(PPO)の神経記号的拡張を提案します。記号的ガイダンスの統合として2つの手法を導入します:(i)H-PPO-Product。これはサンプリング時に行動分布にバイアスをかけます。および(ii)H-PPO-SymLoss。これはPPOの損失に、記号的正則化項を付加します。これらの手法を3つのベンチマーク(OfficeWorld, WaterWorld, DoorKey)で評価し、PPOおよびリワードマシンのベースラインと比べて、収束時に一貫してより速い学習とより高いリターンが得られることを示します。さらに、不完全な記号的知識の下でも同様の結果が得られます。
サンプル効率の高いニューラル・記号統合型近位方策最適化
arXiv cs.AI / 2026/4/29
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、疎な報酬・長い計画ホライズン・複数のサブゴールといった難しい状況で、深層強化学習のデータ要求を減らすことを目的に、近位方策最適化(PPO)のニューラル・記号統合拡張を提案しています。
- 易しい環境で学習した部分的な論理的方策仕様を、より難しい状況の学習を導くために転移する仕組みを導入しています。
- 方法は2つで、H-PPO-Productはサンプリング時に行動分布をバイアスし、H-PPO-SymLossはPPOの損失に記号正則化項を追加します。
- OfficeWorld、WaterWorld、DoorKeyの3つのベンチマークで、提案手法は標準PPOやReward Machineのベースラインよりも学習が速く、収束時のリターンも高いことが示されています(記号知識が不完全な場合でも同様です)。
- 総じて、強化学習に記号的な方策構造を組み込むことで、難しい計画問題における効率と頑健性を大きく改善できる可能性が示唆されています。




