こんにちは!
現在、基本的にはeコマースのクリックストリームデータを扱うプロジェクトに取り組んでいます。データを取り込み、ユーザーの意図(XGboost)や価格感度(Xgboost)を見つけ、購入の意図、調査行動、または価格の振る舞い(Xgboost)に基づいてユーザーをさまざまなセグメントに分けます。そのうえで、割引や送料無料といったメリット(Linucp または Thompson sampling)を推奨する、といった流れです。
質問はこれです。データが毎日入ってきてモデルを学習させる場合、モデルを毎回最初から学習し直す(再学習)方が良いのでしょうか?それとも初期データで学習しておき、その日の新しいデータが来るたびに毎日微調整(fine-tuning)し続ける方が良いのでしょうか?
再学習は全データでは行いません。学習データの蓄積を防ぎ、最新のトレンドを維持するために、直近30日分から100%サンプル、直近30〜90日分から50%サンプル、90〜180日分から10%サンプルを取り出します。
また、これをよりよく学べるようなリソースはありますか?
お力添えに感謝します。
[リンク] [コメント]


