要旨: 2段階レコメンダシステムは、まず候補生成器を選び、次に生成された集合の中でアイテムを順位付けする。生成器はどのアイテムが順位付け器に利用可能かを決めるため、生成器を変更すると、その値を推定するのに用いる政策価値とデータ支援の両方が変化する。これにより、標準的な単段階の目的関数では捉えられないオフライン選択問題が生じる。つまり、ある政策は検索スコアや、生のオフポリシー価値推定のもとでは良く見えるかもしれないが、十分に裏付けのない生成器—アイテムの組合せに依存している場合には、それでも信頼できない可能性がある。我々は、2段階レコメンダ政策の有限ライブラリに対する、支援を考慮したオフライン・セレクタであるCASP(Coupled Action-Set Pessimism)を提案する。CASPは、二重にロバストな価値推定と、支援負担ペナルティを組み合わせる。下流の継続価値を無視する段階ごとの規則は、任意に大きく劣適となり得ることを示し、保守的選択に対する母集団、有限クラス、ならびに再構成された傾向(propensity)に関する保証を導出する。シミュレーションおよび再構成したMovieLens 1Mの適用では、推定価値と支援の信頼性が緊張関係にある場合、CASPは負担のより小さい政策を選択する。
CASP:2段階レコメンドシステム向けのサポート認識型オフライン方策選択
arXiv stat.ML / 2026/4/28
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 2段階レコメンドシステムでは、候補生成器が政策(方策)値の推定と、その推定に使えるデータ支持(サポート)の両方に影響するため、オフラインでの方策選択には専用の手法が必要です。
- 著者らは、従来の単一段階のオフライン目的関数では不十分だと指摘し、政策が検索スコアやオフポリシーの価値推定で良く見えても、生成器—アイテム間の結合が弱い支持に依存していると信頼性が下がり得ると述べています。
- 提案手法CASP(Coupled Action-Set Pessimism)は、二重ロバストな価値推定と「サポート負担」ペナルティを組み合わせ、より信頼できる支持に基づく政策を優先します。
- 著者らは、母集団・有限クラス・再構成された傾向スコアの各設定において、保守的な選択に関する理論保証を示し、下流の継続価値を無視すると性能が任意に悪化し得ることを説明します。
- シミュレーションおよびMovieLens 1Mの再構成適用により、推定価値と支持の信頼性が対立する場合にCASPが低い負担の政策を選ぶことを示しています。




