今重要なことを学ぶ：文脈変化下における動的嗜好推論

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、エージェントの嗜好の重みが観測されない潜在変数であり、固定のままではなく文脈に応じて変動（ドリフト）するような逐次意思決定を扱う。
観測された直近の相互作用から潜在嗜好に関する確率的な信念を更新し、推論された重みに基づいて方策を条件付けする Dynamic Preference Inference（DPI）を提案する。
DPIは、潜在的なトレードオフの証拠としてベクトル値のリターンを用い、嗜好条件付きのアクター・クリティックと共同で学習される変分嗜好推論モジュールとして実装される。
キューイング、迷路、およびイベント駆動の目的切り替えを伴う多目的連続制御の各環境において、DPIは推論された嗜好を新たなレジームに適応させ、固定重みやヒューリスティック基準よりも、切り替え後の性能を向上させる。

Abstract

人間はしばしば、複数の（時に矛盾する）目的を同時に扱い、状況が変化するにつれて固定された目的関数に従うのではなく、優先順位を切り替える。対照的に、ほとんどの計算機による意思決定や多目的強化学習（RL）手法は、静的な選好重み、あるいは既知のスカラー報酬を前提としている。本研究では、これらの選好重みが文脈とともにドリフトする観測されない潜在変数である場合の、逐次意思決定問題を扱う。具体的には、動的選好推論（Dynamic Preference Inference: DPI）を提案する。これは認知に着想を得た枠組みであり、エージェントが選好重みについて確率的な信念を維持し、直近の相互作用からこの信念を更新し、推定された選好に応じて方策を条件付ける。本研究では、DPIを、潜在的なトレードオフに関する証拠としてベクトル値のリターンを用い、選好条件付きアクタークリティックと選好推論モジュールを共同で学習する変分（variational）選好推論モジュールとして具体化する。待ち行列、迷路、多目的連続制御の各環境において、目的がイベント駆動で変化する場合、DPIは新しいレジームに合わせて推論された選好を適応させ、固定重みおよびヒューリスティックなエンベロープ（包絡）ベースラインよりもシフト後の性能が高くなる。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

今重要なことを学ぶ：文脈変化下における動的嗜好推論

要点

Abstract

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer