今重要なことを学ぶ:文脈変化下における動的嗜好推論

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、エージェントの嗜好の重みが観測されない潜在変数であり、固定のままではなく文脈に応じて変動(ドリフト)するような逐次意思決定を扱う。
  • 観測された直近の相互作用から潜在嗜好に関する確率的な信念を更新し、推論された重みに基づいて方策を条件付けする Dynamic Preference Inference(DPI)を提案する。
  • DPIは、潜在的なトレードオフの証拠としてベクトル値のリターンを用い、嗜好条件付きのアクター・クリティックと共同で学習される変分嗜好推論モジュールとして実装される。
  • キューイング、迷路、およびイベント駆動の目的切り替えを伴う多目的連続制御の各環境において、DPIは推論された嗜好を新たなレジームに適応させ、固定重みやヒューリスティック基準よりも、切り替え後の性能を向上させる。

Abstract

人間はしばしば、複数の(時に矛盾する)目的を同時に扱い、状況が変化するにつれて固定された目的関数に従うのではなく、優先順位を切り替える。対照的に、ほとんどの計算機による意思決定や多目的強化学習(RL)手法は、静的な選好重み、あるいは既知のスカラー報酬を前提としている。本研究では、これらの選好重みが文脈とともにドリフトする観測されない潜在変数である場合の、逐次意思決定問題を扱う。具体的には、動的選好推論(Dynamic Preference Inference: DPI)を提案する。これは認知に着想を得た枠組みであり、エージェントが選好重みについて確率的な信念を維持し、直近の相互作用からこの信念を更新し、推定された選好に応じて方策を条件付ける。本研究では、DPIを、潜在的なトレードオフに関する証拠としてベクトル値のリターンを用い、選好条件付きアクタークリティックと選好推論モジュールを共同で学習する変分(variational)選好推論モジュールとして具体化する。待ち行列、迷路、多目的連続制御の各環境において、目的がイベント駆動で変化する場合、DPIは新しいレジームに合わせて推論された選好を適応させ、固定重みおよびヒューリスティックなエンベロープ(包絡)ベースラインよりもシフト後の性能が高くなる。