今重要なことを学ぶ:文脈変化下における動的嗜好推論
arXiv cs.AI / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、エージェントの嗜好の重みが観測されない潜在変数であり、固定のままではなく文脈に応じて変動(ドリフト)するような逐次意思決定を扱う。
- 観測された直近の相互作用から潜在嗜好に関する確率的な信念を更新し、推論された重みに基づいて方策を条件付けする Dynamic Preference Inference(DPI)を提案する。
- DPIは、潜在的なトレードオフの証拠としてベクトル値のリターンを用い、嗜好条件付きのアクター・クリティックと共同で学習される変分嗜好推論モジュールとして実装される。
- キューイング、迷路、およびイベント駆動の目的切り替えを伴う多目的連続制御の各環境において、DPIは推論された嗜好を新たなレジームに適応させ、固定重みやヒューリスティック基準よりも、切り替え後の性能を向上させる。
