05_競馬データ(時系列)にKFoldを使うとリークが起きる理由
Qiita / 2026/3/17
💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage
要点
- 時系列データではKFoldのランダム分割が将来情報のリークを招く可能性があり、訓練データと検証データの境界で情報が共有され得る。
- 競馬データのように過去のレース結果や日付に依存する特徴を含む場合、時系列を無視したクロスバリデーションは現実の予測性能を過大評価させるリスクがある。
- 推奨される手法は時系列に沿った分割(時間順序を守る分割)やローリング Origin( expanding/rolling window)など、未来データを訓練に含めない分割方法を用いること。
- 特徴量設計時には「未来情報を含むテールデータ」や「直近の結果を未来ラベル前提で使う設計」がリークの原因にならないよう留意する。
はじめに
機械学習の入門書では「クロスバリデーション(KFold)でモデルを評価しよう」と教えられます。しかし、競馬データのような時系列データに通常のKFoldを使うと、未来のデータで過去を予測するという情報リークが発生し、モデルが過大評価されます。
この記事では、時系...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →