特徴融合を超えて：文脈付きベイズPEFTによるマルチモーダル不確実性推定

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキスト予測に対してテキスト由来の信号とオーディオ文脈の両方を用い、不確実性を推定するマルチモーダルPEFT手法「CoCo-LoRA」を提案する。
LoRAのような決定論的アプローチや、既存のモノモーダルなベイズ低ランク・アダプタを拡張し、音声由来の文脈信号に基づいて変分事後分布を条件付けすることで、背景雑音や話し方の違いなどの外的な音響要因による不確実性をより捉える。
CoCo-LoRAは、プールしたオーディオ埋め込みを共有コンテキスト空間へ一度だけ射影し、軽量な層ごとのヘッドで全体から局所へ（深さごとの）不確実性と更新を調整することで、高次元な高コストのマルチモーダル融合を避ける。
ランク空間内のコンパクトな潜在成分にのみ確率性（stochasticity）を閉じ込めることで、PEFTの拡張性を維持しつつ、オーディオに敏感でヘテロスケダスな不確実性推定を実現することを狙う。
複数タスクおよびバックボーンでの評価では、CoCo-LoRAはテキストのみのPEFTや従来の特徴融合ベースラインに対して一致または上回る性能を示し、とりわけ高いカバレッジラベルでの信頼性が重要な場面で有効であることが示される。

Abstract

本稿では、音声コンテキストを伴うテキスト予測タスク向けの、不確実性を考慮したマルチモーダルなパラメータ効率の高い微調整手法であるCoCo-LoRAを提案する。LoRAのような既存のPEFT手法は効率的である一方、一般に決定論的である。これに対し、近年のベイズ的低ランクアダプタは、不確実性を軽量にモデル化するが、主として単一モダリティであり、さらに不確実性を内部のテキスト特徴に基づいて条件付けする傾向が強い。そのため、背景雑音、チャネル変動、話し方のスタイルといった外部の音響要因に起因する不確実性を反映する能力が乏しく、これは音声中心のアプリケーションにおいて信頼性に重大な影響を及ぼし得る。CoCo-LoRAはこのギャップを埋めるために、低ランク空間内での文脈付き変分事後分布を、ローカルなテキスト由来のアダプタ特徴と、音声由来のコンテキスト信号の両方で条件付けする。集約（プールド）された音声埋め込みを共有コンテキスト空間へ一度だけ射影し、その後、軽量な層ごとのヘッドによって適応することで、アダプタの不確実性と更新を、グローバルからローカルへ、かつ深さに応じて変調できる。これにより、高次元のマルチモーダル融合を行わずに実現される。不確実性（確率性）はランク空間内のコンパクトな潜在成分に限定されるため、PEFTのスケーラビリティを維持しつつ、音声に敏感で、異分散（heteroscedastic）な不確実性を生成できる。多様なタスクおよびバックボーンの組み合わせに基づく評価により、CoCo-LoRAは一貫して、テキストのみのPEFTや従来の特徴融合型転移ベースラインと同等以上の性能を示す。特に、信頼性の高い適応が重要となる高カバレッジのラベルにおいて顕著である。以上の結果は、マルチモーダルな低リソース予測において、音声を特徴として融合するのではなく、文脈上の不確実性シグナルとして用いることで、頑健でパラメータ効率の高い代替手段が得られることを示している。