広告

不完全なデモンストレーションと変化する報酬から学習する階層的アプレンティス学習(Evolving Rewards)

arXiv cs.AI / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、eラーニング環境におけるアプレンティス学習では、不完全で変化する学生のデモンストレーションを、無視すべきノイズではなく、相対的な品質が順位付けできる限り、構造化された信号として扱うべきだと主張する。
  • 本論文は、HALIDE(Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewards)を提案し、不最適なデモンストレーションから学習するために、階層モデルを用いて低レベルの行動から高レベルの意図と戦略を推定する。
  • HALIDEは、学生の報酬関数の時間的な変化を明示的に捉えることで、一時的なミスと、持続的に見られる不最適な戦略、ならびに学習目標に向けた真の進展とを切り分ける。
  • 著者らは、HALIDEが、最適軌道のみを用いる方法、報酬を固定だと仮定する方法、不完全なデモンストレーションを順位付けされていないものとして扱う方法よりも、学生の教育的判断をより正確に予測できると報告している。

要旨: 階層(アプレナイシュメント)学習は、eラーニング環境における学習者の相互作用から、効果的な教育方針を直接誘導できる可能性を示してきましたが、既存のほとんどの手法は、固定された報酬のもとでの最適または準最適の専門家デモに依存しています。しかし実世界の学習者の相互作用は、多くの場合、本質的に不完全で変化し続けます。学習者は探索し、誤りを犯し、戦略を見直し、理解が深まるにつれて目標を洗練させます。本研究では、不完全な学習者デモは単に捨てるべきノイズではなく、相対的な品質が順位付けされている限り、構造化された信号であると主張します。われわれは、HALIDE(Hierarchical Apprenticeship Learning from Imperfect Demonstrations with Evolving Rewards:変化する報酬を伴う不完全なデモからの階層的アプレナイシュメント学習)を提案します。HALIDEは、準最適な学習者デモを活用するだけでなく、それらを階層的な学習枠組みの中で順位付けします。HALIDEは、複数の抽象度のレベルで学習者の行動をモデル化し、不完全な行動から高次の意図や戦略を推論できるようにするとともに、学習者の報酬関数の時間的な変化を明示的に捉えます。デモの品質を階層的報酬推論に統合することで、HALIDEは、一過性の誤りと、劣っているとはいえない戦略、ならびに高次の学習目標に向けた意味のある進歩を区別します。実験結果は、HALIDEが、最適な軌道に依存する手法、固定報酬を用いる手法、あるいは順位付けされていない不完全デモに依存する手法よりも、学習者の教育的意思決定をより正確に予測することを示しています。

広告