要旨: スーパー・ラーナー(SL)は、予測性能に基づいて学習器のライブラリから得られた予測を組み合わせる、広く用いられているアンサンブル手法である。区間予測は、個々の学習器またはアンサンブルが生成する予測に含まれる不確実性を定量化できるため、実用上の関心が高い。SLに基づいて区間予測を構築するためのいくつかの方法が提案されているが、これらのアプローチは通常、漸近的な議論によって正当化されるか、ブートストラップのような計算負荷の高い手続きを前提としている。適合性予測(Conformal Prediction: CP)は、緩やかな条件のもとで有限標本および漸近的なカバレッジ保証を満たす予測区間を構築するための機械学習の枠組みである。本研究では、個々の学習器の重みを用い、学習器ごとの適合性スコアを重み付き多数決(weighted majority vote)により結合することで、元のSLの枠組みを写し取る自然な構成によって、CPをSLと結び付けることを提案する。連続値の結果に対する、SLベースの予測区間が持つ性質を特徴付ける。交換可能性の仮定が成り立つ設定、交換可能性が破られうる場合、ならびに分散不均一(heteroscedasticity)、疎性(sparsity)およびその他の分布の異質性を示すデータ生成メカニズムのもとでの設定を扱う。包括的なシミュレーション研究により、適合化したSLは真のデータ生成メカニズムに対して競争力のある性能を示しつつ、有限標本で有効なカバレッジを達成することを示す。本研究の中心的貢献は、社会人口学的、バイオメトリクス、および検査値の測定を用いてクレアチニン値を予測することへの応用である。この例は、非線形効果、相互作用、疎性、分散不均一、外れ値への頑健性といった複雑な回帰関数の重要な側面を捉えるよう慎重に選択された学習器によるアンサンブルの利点を示している。R
Conformalized Super Learner(共形化スーパー・ラーナー)
arXiv cs.LG / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、SL(Super Learner)のアンサンブル重み付けと共形予測(CP)を組み合わせて、予測区間を構築する「conformalized(共形化)SL」を提案する。
- 具体的には、学習器ごとの適合度(conformity)スコアを重み付き多数決で統合し、元のSLフレームワークと同様の構成で区間予測を行う。
- 連続値の目的変数に対して、交換可能性などの仮定のもとで得られるSLベースの予測区間の性質を理論的に整理し、交換可能性が崩れる可能性がある場合も扱う。
- シミュレーションにより、提案手法が有限標本で妥当なカバレッジを達成しつつ、真のデータ生成過程に対して競争力のある性能を示す。
- 社会人口統計・生体計測・検査データを用いたクレアチニン値の予測例により、非線形性、相互作用、分散の不均一(ヘテロスケダスティシティ)、疎性、外れ値への頑健性を捉えるアンサンブルの利点を示す。




