不確実性を考慮したマルチモーダル学習のためのクロスモーダル・ベイズ低ランク・アダプテーション

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、既存のPEFT（パラメータ効率チューニング）手法が主に決定論的かつ単一モダリティに寄っているため、低リソースのマルチモーダル課題で予測不確実性とクロスモーダル信頼性の両方が必要な場合に不十分になり得ると指摘しています。
音声-テキスト学習向けの、不確実性を考慮したマルチモーダルPEFTフレームワークCALIBERを提案します。
CALIBERは、ベイズ低ランク・アダプタの変分事後分布を、層ごとのトークンレベルのテキスト-音声クロスアテンションに基づいて条件付けし、rank-rのアダプタ空間内にある確率的潜在行列の平均と分散を変調します。
確率性（ストキャスティシティ）を低次元の潜在成分に閉じ込めることで、PEFTの計算効率と拡張性を保ちながら、モダリティ横断のヘテロスケダスな不確実性推定を可能にすることを狙っています。
複数のテキストおよび音声バックボーンでの実験では、CALIBERがテキストのみのベイズPEFTや従来のマルチモーダル転移学習ベースラインと同等以上の性能を示し、とくにトークンレベルのクロスアテンションが最も一貫した改善につながることを報告しています。

概要: 大規模な事前学習済み言語モデルは、パラメータ効率的ファインチューニング（PEFT）によって下流タスクに適用されることがますます増えていますが、既存のPEFT手法は典型的に決定論的で単峰的（unimodal）であり、予測不確実性とクロスモーダルの信頼性の両方が重要となる低リソースのマルチモーダル環境には適していません。私たちは、音声—テキスト学習のための、マルチモーダル不確実性に配慮したPEFTフレームワークであるCALIBER（Context-Aware Low-rank Inference with Bayesian Embedding Regularization）を提案します。CALIBERは、アダプタ空間における変分事後分布を、層ごと・トークンごとのテキスト—音声クロスアテンションによって条件付けることで、ベイズ的な低ランク適応を拡張します。具体的には、テキスト由来の低ランク特徴が、フレームレベルの音声埋め込みに注意（attend）することで局所化された音響文脈を生成し、それが続いてランク- $r$ のアダプタ空間内にあるコンパクトな確率的潜在行列の平均と分散を変調します。この設計は、音声を単なる追加の特徴源として扱うだけでなく、適応と信頼度の両方を形作る文脈的な信頼性シグナルとして扱う点にあります。確率性を低次元の潜在成分に閉じ込めることで、CALIBERはPEFTの計算効率とスケーラビリティを維持しつつ、ヘテロスケダス（分散が一様でない）なマルチモーダル不確実性推定を可能にします。多様なテキストおよび音声バックボーンにまたがる実験結果から、CALIBERは一貫して、テキストのみのベイズ的PEFTや従来のマルチモーダル転移学習ベースラインと同等、あるいはそれ以上の性能を示し、トークンレベルのクロスアテンションが最も一貫した改善をもたらすことが分かりました。私たちの知見は、局所的なクロスモーダル条件付けが、不確実性に配慮したマルチモーダル適応に対する、効果的で軽量なメカニズムであることを示しています。