構造保持型および情報バランス正則化を用いたジョイント中心の双方向デュアルコントラスティブ整合
arXiv cs.LG / 2026/4/20
📰 ニュースModels & Research
要点
- 本論文は、低リソース環境で長い分割系列からドキュメント単位の音声–テキスト表現を学習するためのクロスアテンション型マルチモーダル枠組みHILBERTを提案する。
- HILBERTは、凍結した事前学習済みの音声・言語エンコーダからセグメント特徴を抽出し、クロスモーダル・アテンションと自己注意型プーリングでモダリティ固有表現とジョイント埋め込みを統合して作る。
- 音声とテキストの次元不均衡が大きい状況に対処するため、HILBERTは音声とテキスト同士を直接対比するのではなく、音声→ジョイントおよびテキスト→ジョイントの整合を同時に行う「相互型デュアルコントラスティブ」目的を用いる。
- 長系列の融合を安定化させるために、Centered Kernel Alignment(CKA)損失(構造の一貫性を保持)と、相互情報量バランス損失(ジョイント空間で一方のモダリティが優勢になるのを防ぐ)という2つの補助正則化を追加する。
- 予測では、音声・テキスト・ジョイント表現を連結した入力に対してMixture-of-Experts(MoE)分類器を用い、特に極端に不均衡な多クラス設定の下流タスクで性能向上を報告している。



