DatedGPT: 時間を意識した事前学習による大規模言語モデルの先読みバイアス防止
arXiv cs.CL / 2026/3/13
📰 ニュースSignals & Early TrendsModels & Research
要点
- DatedGPTは、2013年から2024年までの厳格な年次カットオフを持つ、時間的に区分されたデータ上でゼロから訓練された12個の1.3Bパラメータ言語モデルのファミリーを導入します。これにより、金融バックテストにおける先読みバイアスを防ぎます。
- これらのモデルには、同じ時間的カットオフに整列させた一般領域および金融特有のデータセットでの指示微調整が適用され、時間とともに知識の成長を制約します。
- パープレキシティベースのプロービングにより、各モデルの知識が実質的にカットオフ年によって制約され、将来情報の漏洩を減少させます。
- 標準ベンチマークでの評価は、時系列を意識した訓練にもかかわらず、同規模の既存モデルと競争力のある性能を示します。
- 対話型のウェブデモにより、ユーザーは異なるカットオフ年のモデルの応答を照合・比較でき、実践的な時間認識型予測ワークフローを示します。
要旨: 金融バックテストにおいて、インターネット規模のデータで事前学習された大規模言語モデルは、訓練中に真の結果をすでに見ている可能性があるため、将来情報を先取りしているという先読みバイアスを導入するリスクがあり、予測の妥当性を損ないます。これに対処するため、私たちは DatedGPT を提示します。これは、2013年から2024年までの厳格な年次カットオフを備えた、時間的に分割されたデータ約1000億トークンを用いてゼロから訓練された、1.3Bパラメータの言語モデル12個のファミリーです。さらに、各モデルには、同じ時系列境界を尊重して厳選された一般領域データセットと金融特有データセットの指示微調整を適用します。パープレキシティベースのプロービングにより、各モデルの知識がデータのカットオフ年により実質的に制限されていることが確認され、標準ベンチマークでの評価は、同規模の既存モデルと競争力のある性能を示します。私たちは、ユーザーが異なるカットオフ年のモデルからの回答を照合・比較できる対話型のウェブデモを提供します。