要旨: 時系列基盤モデル(TSFM)は、大規模な統一プリトレーニングによって、時系列予測における汎化性能とデータ効率を前進させる。しかしTSFMは、下流の特定の予測タスクに適応する際に、2つの理由から依然として不十分である。第一に、時系列データの非定常かつ不確実な性質により、過去の学習データと将来のテストデータの間で時間的な分布シフトが不可避に生じる一方、現在の教師あり微調整(SFT)ベースの手法は過学習しやすく、汎化性能を低下させる可能性がある。第二に、予測タスクごとに学習データの利用可能性が異なり、TSFMには多様なデータ環境下で良好に汎化することが求められる。これらの課題に対処するため、TSFMの下流適応のための時系列強化学習微調整(TimeRFT)というパラダイムを導入する。これは2つのタスク固有の学習レシピから構成される。i) 予測品質に基づく時間的報酬メカニズム:各予測ステップが全体の予測精度に与える寄与を、多面的に評価する。ii) 予測困難度に基づくデータ選択戦略:汎化可能な予測パターンと有益な学習シグナルを持つ時系列サンプルを特定する。広範な実験により、TimeRFTは多様な実世界の予測タスクおよび学習データ環境において、SFTベースの適応手法を一貫して上回ることが示される。さらに、未予見の分布シフトに対しても予測精度と汎化性能を向上させる。
TimeRFT:強化ファインチューニングによるTSFMのための汎化可能な時系列予測の刺激
arXiv cs.AI / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Time Series Foundation Models(TSFM)が個別の予測タスクへ適応する際の性能を高めることを目的に、TimeRFTという強化ファインチューニングの枠組みを提案しています。
- 非定常な時系列データに起因する時間的な分布シフトと、それによる汎化性能低下(過学習)という、教師ありファインチューニングの2つの課題に取り組みます。
- TimeRFTは、全体の予測精度に対して各予測ステップがどれだけ寄与したかを多面的に評価する「品質ベースの時間的報酬メカニズム」を用います。
- さらに、データ利用可能性がタスクごとに異なる状況でも学習信号として有益で、汎化可能な予測パターンを含む時系列サンプルを選ぶ「難易度ベースのデータ選択戦略」を採用します。
- 複数の実世界の予測タスクに関する実験では、TimeRFTがSFTベースの適応手法を学習データ条件のさまざまな違いのもとで一貫して上回り、精度と分布シフトへの頑健性を高めることが示されています。



