05_競馬データ（時系列）にKFoldを使うとリークが起きる理由

Qiita / 3/17/2026

💬 OpinionIdeas & Deep AnalysisTools & Practical Usage

共有:

Key Points

時系列データではKFoldのランダム分割が将来情報のリークを招く可能性があり、訓練データと検証データの境界で情報が共有され得る。
競馬データのように過去のレース結果や日付に依存する特徴を含む場合、時系列を無視したクロスバリデーションは現実の予測性能を過大評価させるリスクがある。
推奨される手法は時系列に沿った分割（時間順序を守る分割）やローリング Origin（ expanding/rolling window）など、未来データを訓練に含めない分割方法を用いること。
特徴量設計時には「未来情報を含むテールデータ」や「直近の結果を未来ラベル前提で使う設計」がリークの原因にならないよう留意する。

はじめに機械学習の入門書では「クロスバリデーション（KFold）でモデルを評価しよう」と教えられます。しかし、競馬データのような時系列データに通常のKFoldを使うと、未来のデータで過去を予測するという情報リークが発生し、モデルが過大評価されます。この記事では、時系...

Continue reading this article on the original site.

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA