生の状態軌跡からのアクティブ報酬マシン推論
arXiv cs.RO / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、報酬やラベル、あるいは報酬マシンのノード観測を必要とせずに、生の状態軌跡と方策情報から報酬マシンを直接学習する方法を提示する。
- 情報が乏しいこの設定では、多段階タスク仕様に必要なオートマトンのような報酬構造は、軌跡データのみで推論できると主張する。
- このアプローチは、データ効率と計算効率の両方を向上させるために、追加の軌跡拡張を逐次的に問い合わせるアクティブ学習フレームワークへ拡張される。
- グリッドワールド環境での実験により、提案した仮定のもとで学習された報酬マシンの実現可能性が示される。




