LLaTiSA：視覚的知覚からセマンティクスへ—難易度層化された時系列推論に向けて

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、曖昧なタスク定義や断片化したベンチマークが原因で、LLMにおける時系列推論の評価と統合が難しい点を扱っています。
時系列推論（TSR）を認知的複雑さが増す4段階のタクソノミーとして定式化し、83kサンプルを含む階層型データセットHiTSRと検証済みのChain-of-Thought（CoT）軌跡を導入しています。
HiTSRを活用して、LLaTiSAは、視覚パターンの理解と精度キャリブレーション済みの数値テーブルを統合し、VLM（視覚言語モデル）の時間的知覚を高めると提案しています。
マルチステージのカリキュラムによるファインチューニングにより、LLaTiSAは優れた性能と、さまざまなTSRタスクおよび現実シナリオにおける頑健な分布外汎化を示します。
LLaTiSAのコードは公開されており、再現性と今後の研究を後押しします。

概要: 時系列の包括的な理解は、大規模言語モデル（LLM）にとって依然として大きな課題です。現在の研究は、断片化されたタスク定義や内在する曖昧さを持つベンチマークによって妨げられており、厳密な評価や統一された時系列推論モデル（TSRM）の開発ができない状況です。このギャップを埋めるために、認知的複雑性が増していく4段階の分類（タクソノミー）により、時系列推論（TSR）を形式化します。多様なタスクの組み合わせと検証済みのChain-of-Thought（CoT）軌跡を含む、8.3万サンプルから成る階層型時系列推論データセットであるHiTSRを提案します。HiTSRを活用し、LLaTiSAという強力なTSRMを提案します。LLaTiSAは、可視化されたパターンと、精度を校正した数値テーブルを統合することで、視覚言語モデル（VLM）の時間的知覚を高めます。マルチステージのカリキュラムによる微調整戦略を通じて、LLaTiSAは優れた性能を達成し、さまざまなTSRタスクおよび現実世界のシナリオにおいて、頑健な分布外一般化を示します。コードは https://github.com/RainingNovember/LLaTiSA で公開しています。