切り詰められたブール積分布の効率的なパラメータ推定

arXiv stat.ML / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、メンバーシップオラクルで判定可能な{0,1}^dの部分集合Sによってサンプルが打ち切られる状況で、d次元のブール積分布のパラメータ推定を行う問題を扱う。
  • 打ち切り集合Sに対する「fatness(十分な太さ)」という自然な概念を導入し、Sが十分にfatであれば、打ち切りサンプルから真の分布のサンプルを生成できることを示す。
  • その結果、ブール積分布に対して効率的に解ける多くの統計タスク(全変動距離での学習、パラメータ推定、一様性/同一性テストなど)も、打ち切りデータからはサンプル複雑性を少し増やすだけで効率よく実行できる。
  • この枠組みはランキング分布(Mallowsモデル)にも一般化され、fatnessが打ち切りサンプルからの効率的なパラメータ推定を可能にすることが示される。
  • 学習が可能となる条件の限界を探り、効率的な識別可能性に必要な3条件(Sの豊富さ、メンバーシップオラクルアクセス、全ての方向でのランダム性の保持)を特定し、さらにSGDベースの手法でそれらが十分条件でもあることを証明する。

Abstract

本論文では、d 次元におけるブール積分布(Boolean product distribution)のパラメータ推定問題を扱う。サンプルは、メンバーシップオラクルを通じてアクセス可能な集合 S \subset \{0, 1\}^d によって打ち切られる。本研究は、離散的な設定において、打ち切りサンプルからの学習の計算量的複雑性と統計的複雑性が考察された初めての試みである。 我々は、打ち切り集合 S の「自然な太さ(fatness)」という概念を導入し、この条件の下では、打ち切られたサンプルが真の分布に関する十分な情報を明らかにすることを示す。打ち切り集合が十分に太いなら、真の分布からのサンプルを、打ち切られたサンプルから生成できることを示す。驚くべき帰結として、ブール積分布に対して効率的に実行可能なほとんどあらゆる統計タスク(例えば、全変動距離における学習、パラメータ推定、一様性(uniformity)や同一性(identity)テスト)も、サンプル複雑性がわずかに増えるだけで、打ち切りサンプルから実行できることがわかる。我々はこのアプローチを、d 個の選択肢上の分布のランキングに一般化し、太さが、打ち切りサンプルから Mallows モデルの効率的なパラメータ推定を導く方法を示す。 打ち切りサンプルから離散モデルを学習することの限界を探る中で、効率的な識別可能性(efficient identifiability)に必要な3つの自然な条件を特定する: (i) 打ち切り集合 S は十分に豊かであるべきである; (ii) S はメンバーシップ問い合わせ(membership queries)によってアクセス可能であるべきである; (iii) S による打ち切りが、あらゆる方向において十分なランダム性を残すべきである。 (Daskalakis et al., FOCS 2018) の Stochastic Gradient Descent(確率的勾配降下法)アプローチを慎重に適応させることで、これらの条件が、打ち切られたブール積分布の効率的な学習に対しても十分であることを示す。