要旨: 意思決定の問題は、異質で文脈依存的な人間の嗜好に起因する不確実性を特徴とすることが多い。
これに対処するため、嗜好分布を学習し、それを活用して下流の問題を解決するための逐次学習と最適化のパイプラインを提案します。例としてリスク回避的な定式化が挙げられます。
このような設定では、既存の逆最適化および選択モデリング手法は観測された選択から嗜好を推定しますが、通常は点推定を生成するか、文脈的なシフトを捉えられず、リスク回避的な意思決定には適していません。
境界付き分散スコア関数勾配推定量を用いて、文脈的特徴をパラメータ化可能な分布の豊かなクラスへ写像する予測モデルを訓練します。
このアプローチは最尤推定をもたらします。
モデルは次の最適化フェーズで未観測の文脈に対するシナリオを生成します。
合成的なライドシェアリング環境において、私たちのアプローチは、完全な予測を備えたリスク中立アプローチと比較して平均的な意思決定後の予期せぬ事象を最大で114倍低減します。さらに、先導的なリスク回避ベースラインと比較して最大で25倍低減します。
文脈依存の選好分布学習
arXiv cs.LG / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 不確実性を含む意思決定問題の文脈依存の選好分布を学習するための逐次的な学習と最適化のパイプラインを提案します。対象は(整数)線形計画問題に焦点を当てます。
- この方法は、分散を有界に保つスコア関数の勾配推定量を用いて、文脈特徴をパラメータ化可能な分布へ写像する予測モデルを訓練し、最尤推定を得ます。
- このモデルは、未知の文脈に対してシナリオを生成し、下流の最適化に利用します。これにより、点推定を超えたリスク回避的な意思決定が可能になります。
- 合成のライドシェア環境において、本手法は、予測が完璧なリスク中立ベースラインと比べて、意思決定後の平均的なサプライズを最大で114倍低減し、主要なリスク回避ベースラインと比較して最大で25倍の低減を実現します。