要旨: Context-aided forecasting (CAF) は、ドメイン知識と前向き情報を統合する可能性を秘めており、AIシステムが従来の統計的方法を上回ることを可能にします。しかし、最近の実証研究は不可解なギャップを示しています。マルチモーダルモデルはしばしば、ユニモーダルな対応モデルを上回ることができません。私たちは、この成績の低下は、既存データセットの文脈品質が低いことに起因すると仮説します。検証が難しいためです。これらの制限に対処するため、時系列の動的特性を記述するとともに、数値的履歴と検証可能に補完的な文脈を生成する半合成データ拡張法を導入します。このアプローチは大規模なデータセットの作成を可能にし、CAF-7M、700万の文脈付与時系列ウィンドウのコーパスを生み出します。厳密に検証されたテストセットを含みます。半合成の事前訓練が現実世界の評価に効果的に転移することを実証し、文脈の活用の明確な証拠を示します。我々の結果は、文脈補助予測におけるボトルネックは、アーキテクチャの制約ではなくデータセット品質であることを示唆しています。
文脈支援予測におけるモダリティのギャップを克服する
arXiv cs.LG / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は文脈支援予測(CAF)を紹介し、既存データセットの文脈品質の低さによりマルチモーダルモデルの性能が低下するというギャップを指摘している。
- 記述的で検証可能な補完的文脈を生成する半合成データ拡張法を提示し、厳密に検証済みのテストセットを備えた大規模な CAF-7M データセットの作成を可能にする。
- 著者らは、半合成による事前学習が実世界の評価へ効果的に転移することを示し、モデルが文脈を活用しているという証拠を提供する。
- 彼らは、文脈支援予測における主なボトルネックはアーキテクチャの制約ではなくデータセットの品質であると結論づけている。