有限供給下のオフポリシー学習

arXiv cs.LG / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、有限供給下の文脈付きバンディットにおけるオフポリシー学習を分析し、貪欲法が初期段階でアイテムを枯渇させ、最適性を欠くことになると示している。
制約付き設定において、より高性能な方針が存在することを証明する理論的結果を提示し、無制約の貪欲法だけではそれを保証できない。
OPLS（有限供給下オフポリシー学習）を導入し、割り当て効率を改善するために、アイテムを他のユーザーに対する相対的な優位性でランク付けする。
合成データセットと実世界データセットを用いた実証実験により、有限供給の状況下でOPLSが標準的なOPL手法を上回ることを示している。

概要: 私たちは文脈バンディットにおけるオフポリシー学習（OPL）を研究します。これは推奨システムやオンライン広告など、現実世界の幅広い応用分野で重要な役割を果たします。文脈バンディットにおける典型的なOPLは、ポリシーが同じアイテムを無限に選択できる制約のない環境を前提とします。しかし、クーポン配布やeコマースを含む多くの実践的な応用では、限られた供給が分配クーポンの予算上の制限や製品の在庫制限を通じてアイテムを制約します。これらの設定では、現在のユーザーにとって最も期待報酬の高いアイテムを貪欲に選択することが、そのアイテムの早期枯渇を招き、将来のユーザーが潜在的に高い期待報酬を生み出せる可能性のあるアイテムを利用できなくする可能性があります。その結果、制約のない設定で最適とされるOPL手法は、限られた供給設定ではサブ最適になることがあります。問題に対処するため、従来の貪欲なOPLアプローチがポリシーの性能を最大化できない可能性を示す理論的分析を提供し、有限供給設定においてより高い性能を持つポリシーが存在することを実証します。この洞察に基づき、有限供給付きのオフポリシー学習（OPLS）と呼ばれる新しい手法を導入します。単に最も期待報酬の高いアイテムを選択するのではなく、OPLSは他のユーザーと比較して相対的に高い期待報酬を持つアイテムに焦点を当て、限られた供給のアイテムのより効率的な割り当てを可能にします。合成データセットと実世界データセットの両方での経験的な結果は、OPLSが限られた供給を伴う文脈バンディット問題において既存のOPL手法を上回ることを示しています。