予算制約下の因果バンディット:アップリフトモデリングと逐次意思決定の橋渡し

arXiv cs.LG / 2026/4/30

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、デジタル広告における予算制約下の治療(広告配信)割当の課題に取り組み、限られた予算の中で不均一な治療効果(HTE)を踏まえつつ、どのユーザーに広告を出すかを決める必要がある点を扱います。
  • 提案手法は Budget-Constrained Causal Bandits(BCCB)で、ユーザーごとの広告効果を学習し、反応が不確かなユーザーを探索し、時間経過に応じて予算を配分(ペーシング)することを、逐次的なオンライン過程として同時に行います。
  • 一般的な2段階のオフライン手法(HTE推定の後に制約付き最適化を行う)と異なり、BCCBは過去データがほとんどないコールドスタート状況でも機能することを狙っています。
  • 実験では、実際のランダム化比較試験由来の大規模広告データセットである Criteo Uplift データセットを用い、データ効率の「交差」が主要な発見として示されています。
  • オフライン手法は信頼できる性能を得るのに約10,000件の履歴観測が必要なのに対し、BCCBは最初のユーザーから有効に動作し、さらに実行間の性能ばらつきが3〜5倍小さいだけでなく、テストした全予算水準でベースラインより一貫して優れることが報告されています。

要旨: 予算制約下での治療(Treatment)の割り当ては、デジタル広告における中心的な課題です。広告主は、限られた予算を賢く使いながら、どのユーザーに広告を表示するかを決めなければなりません。標準的なアプローチは、2段階のオフライン・パイプラインに従います。すなわち、最初に過去データを収集して異質な治療効果(HTE)を推定し、次に制約付き最適化を解いて予算を配分します。これはデータが豊富な場合にはうまく機能しますが、新規キャンペーン、新規市場、または新しい顧客セグメントなど、ほとんど過去データが存在しないコールドスタート環境では失敗します。そこで本研究では、Budget-Constrained Causal Bandits(BCCB)を提案します。BCCBはオンラインの枠組みであり、広告に対してどのユーザーが反応するかを学習しながら同時に予算を消費し、治療(Treatment)の意思決定をユーザー1人ずつ行います。BCCBは、個々の広告効果の学習、不確実な反応を示すユーザーの探索、時間にわたる予算のペーシングという3つの要素を、単一の逐次プロセスに統合します。実験では、実際のランダム化比較試験に由来する大規模広告データセットであるCriteo Upliftデータセットで評価しました。主要な発見は、データ効率におけるクロスオーバーです。オフライン手法は信頼できる結果を得るのに約10,000件の過去観測が必要であるのに対し、BCCBは最初のユーザーから有効に動作します。さらにBCCBは、実行間での性能分散が3〜5倍低く、実際のキャンペーン計画においてより実用的です。純粋にオンライン手法の中では、BCCBは、テストしたすべての予算水準において、標準的なThompson Sampling、予算付きThompson Sampling、および貪欲なHTE推定を一貫して上回ります。

予算制約下の因果バンディット:アップリフトモデリングと逐次意思決定の橋渡し | AI Navigate