二段階ハードルモデル:ゼロ過剰アウトカムの予測

Towards Data Science / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ゼロ過剰データは、観測値がゼロかどうか、そしてゼロでない場合にはアウトカムの大きさを予測する、二つの別個の過程をモデル化する必要がある。
  • 二段階ハードルモデルはこれらの課題を分離し、単一モデルアプローチと比較して解釈性と予測性能を向上させることが多い。
  • 第一段階では、ゼロ対非ゼロの発生を予測するために二値モデル(例:ロジスティック回帰)を用い、第二段階では非ゼロデータのみを用いて正のアウトカムをモデル化する。
  • このアプローチはゼロが過剰に現れ、過分散の可能性があるデータセットに特に適しており、最適な適合を選ぶにはゼロ過剰モデルなどの代替手法と比較するべきである。

なぜ1つのモデルは2つの仕事をこなせないのか

投稿 Two-Stage Hurdle Models: Predicting Zero-Inflated Outcomes は、最初に Towards Data Science に掲載されました。