大規模階乗実験におけるポリシー対応型デザイン

arXiv stat.ML / 2026/4/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、限られたトラフィック下で、構成的なプロダクト意思決定のための大規模な階乗型オンライン実験を、デジタルプラットフォームがどのように実行できるかを扱う。分散型のA/Bテストでは、相互作用効果の扱いが難しい。
  • 提案手法は、介入(介入組合せ)をサンプルする2段階の中央集権型実験デザインであり、未実施のアウトカムを推定するために低ランクのテンソル補完を用いる。さらに、推定された限界寄与に基づいて弱い要因水準を枝刈りする。
  • 第2段階では、生き残った組合せのみに対して逐次ハルビングを行い、すべての治療効果を推定するのではなく、最も良いポリシーを選択する。
  • 著者らは、単純なレグレット(simple-regret)の上界や識別保証などの理論結果を提示している。計算複雑性は、全階乗サイズそのものではなく、低ランクの自由度や要因分離構造に依存することを示す。
  • オフライン実験として、100M件のTaobao相互作用から構築したプロダクト・バンドリング課題を用いた。低予算かつ高ノイズの条件で、単発のテンソル補完やベストアーム基準よりも大きな改善が得られる。

要旨: デジタル企業は、共有されたユーザ集団上で多数のオンライン実験を日常的に実施している。たとえばインターフェース要素、フロー、メッセージ、インセンティブなどの組合せによってプロダクト上の意思決定が構成的になる場合、実行可能な介入の数は組合せ的に増大する一方で、利用可能なトラフィックは限られたままである。そのため、重なり合う実験は、分散型A/Bテストでは十分に扱えない相互作用効果を生み得る。本研究では、目的がすべての処置効果を推定することではなく、固定された実験予算のもとで高い性能を持つ方策を同定することである場合に、大規模な因子実験を設計する方法を検討する。重なり合う実験を単一の因子問題として中央集権的に統合し、期待される結果を低ランクのテンソルとしてモデル化する、二段階の設計を提案する。第一段階では、プラットフォームが介入の組合せの部分集合をサンプリングし、テンソル補完によって未実施の組合せにおける性能を推定し、推定された周辺(限界)貢献に基づいて弱い因子水準を除去する。第二段階では、生き残った組合せに対して逐次半減(sequential halving)を適用し、最終的な方策を選択する。ギャップ非依存の単純後悔(simple-regret)に関する上界と、ギャップ依存の同定保証を確立し、関連する複雑性が、完全な因子実験のサイズではなく、低ランクテンソルの自由度および因子水準間の分離構造に比例してスケールすることを示す。100 million件のTaobaoの相互作用から構築したプロダクト・バンドリング問題に基づくオフライン評価では、提案手法は、ワンショットのテンソル補完および非構造なベストアームのベンチマークに対して大幅に優れており、特に低予算かつ高ノイズの設定で顕著である。これらの結果は、中央集権的で方策を意識した実験設計によって、組合せ的なプロダクト設計がプラットフォーム規模で運用可能な現実解となり得ることを示している。