状態履歴とグローバルフィードバックに基づく解釈可能な経験学習

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、状態集合上の遷移グラフとして行動ダイナミクスを学習する、解釈可能な経験学習モデルを提案しています。
グラフ内の各遷移には効用（utility）とエビデンス数（evidence count）が付与され、ブラックボックスになりがちな手法よりも解釈性の向上を目指しています。
この手法は、計算資源が限られた環境での強化学習問題の解決に適するよう設計されています。
OpenAI GymのAtari Breakoutベンチマークでの実験により、既存のニューラルネットベース手法の一部と同等の性能が示されています。
本研究はarXivへの新規投稿として提示されており、他分野の研究者が比較・発展させるための早期の貢献になります。

Abstract

状態履歴とグローバルなフィードバックに基づく新しい解釈可能な体験学習モデルが提示される。このモデルは、状態の集合間の遷移グラフとして表現される行動モデルを学習することができ、遷移には有用性と証拠数が付与される。本モデルは、資源が制約された環境における強化学習問題の解決に適していることが期待される。モデルはOpenAI GymのAtari Breakoutベンチマークで徹底的に評価され、既知のいくつかのニューラルネットワークベースの解法と同等の性能を示した。