Abstract
集計統計から合成母集団を生成することは、マイクロシミュレーション、エージェントベースモデリング、政策分析、およびプライバシー保護型データ公開の中核的な要素である。古典的な国勢調査の周辺分布にとどまらず、多くの応用では、調査、専門家の知見、または自動的に抽出された記述から導出される、不均一な単項、二項、三項の制約に適合させることが求められる。このような多方向(multi-way)の制約を同時に満たす母集団を構築することは、重要な計算上の課題である。我々は、各個体がカテゴリ属性によって記述され、目標が属性の組合せに対するグローバルな頻度制約の集合であるような母集団を考える。制約の数や階数(arity)が増えると、厳密な定式化はスケールしにくくなる。特に、制約が多くかつ重なり合う場合にはその傾向が顕著である。統計物理学の手法に基づき、本問題に対する最大エントロピー(maximum-entropy)の緩和を提案する。多方向の基数(cardinality)制約は、厳密にではなく期待値のもとで適合させる。その結果、完全な母集団割当てに対して指数族(exponential-family)分布が得られ、ラグランジュ乗数に関する凸最適化問題が生じる。4〜40の属性を含むNPORS由来のスケーリングベンチマークで本アプローチを評価し、主に一般化rakingと比較する。その結果、属性数と三項相互作用が増えるほどMaxEntの優位性がますます高まる一方で、rakingはより小規模で低い階数(lower-arity)のインスタンスでは競争力を維持することが示される。