要旨: 近年の研究では、時系列と言語の両方を扱う複雑なマルチモーダル・モデルが提案され、最終的に、時系列推論やクロスモーダル質問応答といった複雑な課題に対して高い性能を主張しています。しかし、そうした複雑なモデルが必ず身につけておくべき基礎的な評価を省いています。そこで、私たちは単純な問いを立てます: \textit{最近のモデルは、時系列の構造的性質をどれほどうまく記述できるのか?} この問いに答えるために、成功するモデルは、単変量時系列の記述を \textit{認識}し、\textit{区別}し、\textit{生成}できるべきだと提案します。次に、これらの新しいタスクを評価するための \textbf{ベンチマーク}、すなわち \textbf{3つのモダリティ}にまたがって \textbf{5つのデータセット}を再フォーマットしたベンチマークを作成します。\textbf{17の最先端モデル}を評価した結果、次がわかりました: (1) 驚くべきことに、同様のタスクのために設計されているにもかかわらず、専用の時系列-言語モデルは不十分です。 (2) 画像言語モデルはかなり有能です。 (3) 多くの研究がその潜在力を称賛しているにもかかわらず、言語のみの手法は最も悪い性能です。 (4) すべてのアプローチは、現実世界におけるさまざまな頑健性テストに対して明確に脆弱であり、今後の研究の方向性を示しています。以上の発見により、先行研究の主張を批評するとともに、マルチモーダルな時系列モデリングを前進させるための道筋を提示します。
BEDTime: 時系列を自動的に記述するための統一ベンチマーク
arXiv cs.CL / 2026/4/13
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、単変量時系列に対してモデルが構造的な記述を認識し、識別し、生成する能力を評価する統一ベンチマークであるBEDTimeを提案する。
- BEDTimeは、時系列理解のクロスモーダル評価を支えるために、3つのモダリティにまたがって5つのデータセットを再フォーマットしたものを含む。
- 17の最先端モデルに対する実験の結果、専用の時系列-言語モデルは過小評価され、視覚-言語モデルは比較的良好に機能し、言語のみの手法が最も劣ることが示された。
- 本研究では、評価されたすべてのアプローチが実環境でのロバスト性テストに対して脆弱であることを明らかにし、現在のマルチモーダル時系列モデリングにおけるギャップと、今後の研究の方向性を示している。




