時系列におけるマルチモーダル融合を再考する：補助モダリティには制約付き融合が必要

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、時系列予測にテキストやビジョンのような補助モダリティを追加しても、改善が限定的または一貫しないことが多く、場合によっては単一モダリティの時系列モデルよりも素朴な融合（例：加算／連結）が性能を下回ることがあると示している。
著者らはこれを、時系列ダイナミクスに対して無関係であり得る補助情報の統合が制御されていないことに起因するとしており、そのことがデータセットやアーキテクチャをまたいだ汎化性能を損なうと説明している。
著者らは、モダリティ間の統合を調節する複数の制約付き融合戦略を評価し、それらが素朴な融合手法に対して一貫して優れていることを示している。
提案手法の Controlled Fusion Adapter（CFA）は、時系列バックボーンを変更せずに、低ランクのアダプタを用いてテキストからの無関係な信号をフィルタし、時間表現へ融合することで、制御されたモダリティ間相互作用を追加するプラグイン技術である。
データセットおよびTS／テキストモデルのバリアントにまたがる20,000件超の実験を含む大規模な評価により、制約付き融合手法の有効性が裏付けられており、著者らはコードを公開している。

要旨: 近年のマルチモーダル学習の進展により、テキストや視覚などの補助モダリティを時系列（TS）予測に統合することが動機づけられてきました。しかし、既存のほとんどの手法では得られる改善は限定的であり、多くの場合、特定のデータセットでのみ性能が向上するか、あるいは汎化を制限するアーキテクチャ固有の設計に依存しています。本論文では、単純な融合戦略（例: 単純な加算や連結）を用いる素朴な融合のマルチモーダルモデルは、しばしば単一モダリティのTSモデルよりも性能が劣ることを示します。これを、補助モダリティの統合が制御されておらず、無関係な情報を導入してしまうことに起因すると考えます。この観察に動機づけられ、そうした統合を制御するために設計されたさまざまな制約付き融合手法を検討し、それらが一貫して素朴な融合手法よりも優れていることを見いだします。さらに、TSバックボーンを変更せずに制御されたクロスモーダル相互作用を可能にするシンプルなプラグイン手法である Controlled Fusion Adapter（CFA）を提案します。CFAは、TSのダイナミクスに整合した関連するテキスト情報のみを統合します。CFAは、低ランクのアダプタを用いて、融合の前に無関係なテキスト情報をフィルタリングし、それを時間表現へと取り込みます。さまざまなデータセットおよびTS/テキストモデルに対して20,000件を超える実験を行い、CFAを含む制約付き融合手法の有効性を示します。コードは以下で公開されています: https://github.com/seunghan96/cfa/