要約:
大規模な事前学習モデルの時代において、一般知識を特定の感情計算タスクへ効果的に適応させることは依然として課題であり、特に計算効率とマルチモーダルな異質性に関して難しさが残る。
Transformerベースの手法はモダル間依存性のモデリングに長けている一方で、その二次計算量が長いシーケンスデータの利用を制限している。
Mambaベースのモデルは計算効率の高い代替手段として登場しているが、その本質的な逐次スキャン機構は、効果的なクロスモーダルアライメントに不可欠なグローバルで非逐次的な関係を捉えるのに苦労する。
これらの制限に対処するため、\textbf{AlignMamba-2}、マルチモーダル融合と感情分析のための効果的で効率的なフレームワークを提案します。
私たちのアプローチは、最適輸送距離と最大平均差異の両方を用いてモデルを正則化する二重アライメント戦略を導入し、推論時のオーバーヘッドを一切発生させることなく、モダリティ間の幾何学的および統計的整合性を促進します。
さらに重要なのは、モダリティ対応型Mamba層を設計し、モダリティ固有の専門家とモダリティ共有の専門家を組み合わせたMixture-of-Expertsアーキテクチャを採用して、融合プロセス中のデータ異質性を明示的に扱います。
ダイナミックな時系列データ(CMU-MOSIおよびCMU-MOSEIデータセット上)や静的な画像関連タスク(NYU-Depth V2およびMVSA-Singleデータセット上)を含む4つの難解なベンチマークでの広範な実験は、AlignMamba-2が、動的時系列分析から静的な画像-テキスト分類に至る多様なパターン認識タスクにおいて、効果と効率の両方で新たな最先端を確立することを示しています。
AlignMamba-2: モーダリティ対応のMambaによる多模態融合と感情分析の強化
arXiv cs.AI / 2026/3/20
💬 オピニオンModels & Research
要点
- AlignMamba-2は、Transformerベースのマルチモーダルモデルの二乗計算量と、逐次的なMambaアーキテクチャが抱えるグローバルなクロスモーダル相互作用の制限を解消するため、デュアルアライメントとモーダリティ対応融合フレームワークを導入する。
- 本手法は、最適輸送距離と最大平均差異(Maximum Mean Discrepancy)を用いたデュアル正則化を利用し、推論時のオーバーヘッドを追加することなく、モーダリティ間の幾何的・統計的一致性を確保する。
- モーダリティ対応のMamba層を、モーダリティ特異的エキスパートとモーダリティ共有エキスパートを備えたMixture-of-Experts設計に基づいて導入し、融合時のデータの異質性をより適切に扱えるようにする。
- ダイナミックな時系列ベンチマーク(CMU-MOSI、CMU-MOSEI)および静的な画像-テキストタスク(NYU-Depth V2、MVSA-Single)における実験は、さまざまなタスクで最先端の性能と向上した効率性を示している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning