密度比のための加法ツリーモデルによる二標本比較

arXiv stat.ML / 2026/4/23

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2つの分布間の密度比をi.i.d. サンプルから推定することで二標本比較を行い、加法ツリーモデルを用いることを提案しています。
学習目的関数として「balancing loss（バランシング損失）」を新たに導入し、フォワード・ステージワイズ最適化やグラディエントブースティングなど、教師あり学習で用いられる手法で木モデルを学習できるようにしています。
balancing loss は指数族カーネルに関連し、擬似尤度としても利用できるため、ベイズ加法回帰ツリー（BART）向けの backfitting サンプラーによって密度比の一般化ベイズ推論が可能になることが示されています。
推定した密度比に対する不確実性の定量化を提供し、さらに二値分類における損失や f-divergence の変分表現（特に二乗ヘリング距離）とのつながりが説明されています。
実験では精度と計算効率の両立が確認され、微生物叢（マイクロバイオーム）の構成データに対する生成モデルの評価への適用例も示されています。

Abstract

2つの密度の比は、それらの相違点を直接的に特徴づけます。i.i.d. な観測が2つの分布から得られていると仮定し、この比を推定することで2標本比較の問題を考えます。そこで本研究では、密度比推定のための加法的ツリーモデルを提案し、それに加えて新しい損失関数であるバランシング損失を用いた効率的なアルゴリズムを示します。この損失により、フォワード・ステージワイズ最適化やグラディエントブースティングといった、元々教師あり学習向けに設計された複数のアルゴリズムを使って、ツリーベースのモデルを学習できます。さらに、バランシング損失は指数族カーネルに似ており、共役事前分布を持つ擬似尤度として用いることもできます。この性質により、ベイズ加法回帰ツリー（BART）向けに設計されたバックフィッティング・サンプラーを用いて、密度比に関する一般化ベイズ推論を実行可能になります。提案するベイズ的方策は、推定された密度比に対する不確実性の定量化を提供し、高次元でデータが限られ、さらに不確実性が大きい可能性のある分布を扱う応用にとって重要です。加えて、バランシング損失が二値分類における指数損失、およびf-divergenceの変分形、特に二乗ヘリンガー距離に結びつくことを示します。数値実験により、本手法が精度と計算効率の両方を達成し、しかも不確実性の定量化を独自に提供できることを示します。最後に、微生物叢の組成データに対する生成モデルの品質評価への適用例を示します。