構造保持型および情報バランス正則化を用いたジョイント中心の双方向デュアルコントラスティブ整合

arXiv cs.LG / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、低リソース環境で長い分割系列からドキュメント単位の音声–テキスト表現を学習するためのクロスアテンション型マルチモーダル枠組みHILBERTを提案する。
  • HILBERTは、凍結した事前学習済みの音声・言語エンコーダからセグメント特徴を抽出し、クロスモーダル・アテンションと自己注意型プーリングでモダリティ固有表現とジョイント埋め込みを統合して作る。
  • 音声とテキストの次元不均衡が大きい状況に対処するため、HILBERTは音声とテキスト同士を直接対比するのではなく、音声→ジョイントおよびテキスト→ジョイントの整合を同時に行う「相互型デュアルコントラスティブ」目的を用いる。
  • 長系列の融合を安定化させるために、Centered Kernel Alignment(CKA)損失(構造の一貫性を保持)と、相互情報量バランス損失(ジョイント空間で一方のモダリティが優勢になるのを防ぐ)という2つの補助正則化を追加する。
  • 予測では、音声・テキスト・ジョイント表現を連結した入力に対してMixture-of-Experts(MoE)分類器を用い、特に極端に不均衡な多クラス設定の下流タスクで性能向上を報告している。

Abstract

本論文では、低資源データ環境における長く分割された系列から文書レベルの音声-テキスト表現を学習するための、クロス注意型マルチモーダルフレームワークであるHILBERT(HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training)を提案する。HILBERTは、凍結した事前学習済みの音声と言語エンコーダを活用して、セグメントレベルの特徴を抽出する。これらの特徴は、クロスモーダル注意と自己注意付きプーリングによって集約され、モダリティ固有の文書表現と、共同(joint)クロス注意埋め込みを形成する。音声とテキスト間の次元の極端な不均衡という厳しい状況下でも、モダリティ固有の構造を保持しつつモダリティを整合させるために、音声とテキストのみを直接対比するのではなく、音声から共同表現への整合とテキストから共同表現への整合を同時に行う、相互(二重)コントラスト目的(reciprocal dual contrastive objective)を導入する。さらに、長系列の融合を安定化するために2つの補助的正則化器を加える。各モダリティと共同埋め込みの間における構造的一貫性を保持するCentered Kernel Alignment(CKA)損失と、音声とテキストから共同空間への情報フローを同等化することで単一モダリティの支配を防ぐ相互情報(mutual information)バランシング損失である。下流予測においては、HILBERTは連結した音声表現、テキスト表現、および共同表現に対してMixture-of-Experts(MoE)分類器を用い、多様なラベルの分布(レジーム)に対応する。複数の音声-テキスト・バックボーンの組み合わせにまたがる大規模な評価により、HILBERTが意味論的に有意義な長系列表現を学習し、非常に不均衡な多クラス設定において優れた性能を達成することを示す。