再学習(Retraining)と微調整(Fine-tuning)または転移学習(Transfer Learning)のどちら?[D]

Reddit r/MachineLearning / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本記事では、ユーザーの意図、価格感度、セグメンテーションを扱うためにXGBoostを用いたEC(eコマース)のクリックストリームモデリング・パイプラインと、バンディット型の手法によるレコメンデーション(LinUCBまたはThompson samplingで、割引/送料無料を選択)について説明します。
  • 中心となる問いは、日次で新しいデータが流入してくる場合に、モデルを再学習するべきか(ローリングしつつ、ダウンサンプリングしたウィンドウで再学習)、それとも過去データを保持したまま日次で微調整/継続学習(continued training)で更新すべきか、という点です。
  • 著者は、最近の複数の時期それぞれから異なるサンプリング比率でデータを抽出して学習する、訓練データの蓄積を抑えつつ新しいトレンドを保つことを狙った「折衷案」の再学習戦略を提案しています。
  • さらに本依頼では、継続的に更新されるレコメンダーや予測モデルに対して、「最初から再学習すべき場合」と「微調整/転移学習すべき場合」をよりよく理解するための学習リソースも求めています。

こんにちは!

現在、基本的にはeコマースのクリックストリームデータを扱うプロジェクトに取り組んでいます。データを取り込み、ユーザーの意図(XGboost)や価格感度(Xgboost)を見つけ、購入の意図、調査行動、または価格の振る舞い(Xgboost)に基づいてユーザーをさまざまなセグメントに分けます。そのうえで、割引や送料無料といったメリット(Linucp または Thompson sampling)を推奨する、といった流れです。

質問はこれです。データが毎日入ってきてモデルを学習させる場合、モデルを毎回最初から学習し直す(再学習)方が良いのでしょうか?それとも初期データで学習しておき、その日の新しいデータが来るたびに毎日微調整(fine-tuning)し続ける方が良いのでしょうか?

再学習は全データでは行いません。学習データの蓄積を防ぎ、最新のトレンドを維持するために、直近30日分から100%サンプル、直近30〜90日分から50%サンプル、90〜180日分から10%サンプルを取り出します。

また、これをよりよく学べるようなリソースはありますか?

お力添えに感謝します。

submitted by /u/Bluem00n1o1
[リンク] [コメント]
広告

再学習(Retraining)と微調整(Fine-tuning)または転移学習(Transfer Learning)のどちら?[D] | AI Navigate