サンプル効率の高いニューラル・記号統合型近位方策最適化

arXiv cs.AI / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、疎な報酬・長い計画ホライズン・複数のサブゴールといった難しい状況で、深層強化学習のデータ要求を減らすことを目的に、近位方策最適化（PPO）のニューラル・記号統合拡張を提案しています。
易しい環境で学習した部分的な論理的方策仕様を、より難しい状況の学習を導くために転移する仕組みを導入しています。
方法は2つで、H-PPO-Productはサンプリング時に行動分布をバイアスし、H-PPO-SymLossはPPOの損失に記号正則化項を追加します。
OfficeWorld、WaterWorld、DoorKeyの3つのベンチマークで、提案手法は標準PPOやReward Machineのベースラインよりも学習が速く、収束時のリターンも高いことが示されています（記号知識が不完全な場合でも同様です）。
総じて、強化学習に記号的な方策構造を組み込むことで、難しい計画問題における効率と頑健性を大きく改善できる可能性が示唆されています。

要旨: 深層強化学習（DRL）アルゴリズムはしばしば大量のデータを必要とし、計画ホライズンが長く複数のサブ目標を含む疎な報酬領域では苦戦します。本論文では、より容易な状況の学習で獲得された部分的な論理的ポリシー仕様を、より困難な設定での学習を導くために転移する、近位政策最適化（PPO）の神経記号的拡張を提案します。記号的ガイダンスの統合として2つの手法を導入します：（i）H-PPO-Product。これはサンプリング時に行動分布にバイアスをかけます。および（ii）H-PPO-SymLoss。これはPPOの損失に、記号的正則化項を付加します。これらの手法を3つのベンチマーク（OfficeWorld, WaterWorld, DoorKey）で評価し、PPOおよびリワードマシンのベースラインと比べて、収束時に一貫してより速い学習とより高いリターンが得られることを示します。さらに、不完全な記号的知識の下でも同様の結果が得られます。

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

note

Takahiro.K ｜元SEコンサルのAI対話ログ

note

AIエージェントは、人間のように組織を運営することができるか

note

Geminiは現代の駆け込み寺 !? 悩み相談室!?

note

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

note

サンプル効率の高いニューラル・記号統合型近位方策最適化

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

現実には試作ガンダムが最強なんてことは無い筈だが…AI環境ではあり得た。

Takahiro.K ｜ 元SEコンサルのAI対話ログ

AIエージェントは、人間のように組織を運営することができるか

Geminiは現代の 駆け込み寺 !? 悩み相談室!?

要約AI | おじの解説 | 📗 AIを組織で回す技術 045

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Takahiro.K ｜元SEコンサルのAI対話ログ

Geminiは現代の駆け込み寺 !? 悩み相談室!?