対比的LLMファインチューニングによるバックチャネルと対話文脈表現の整合

arXiv cs.CL / 2026/4/21

📰 ニュースModels & Research

共有:

要点

本論文は、バックチャネルの意味が語彙的な形と韻律（プロソディ）の両方によってどのように伝わるのかを、タイミング予測中心だった従来研究の範囲を超えて検討します。
提案手法は2段階で、まず対話トランスクリプトで大規模言語モデルを微調整して文脈表現を獲得し、次に対話文脈とバックチャネル実現を結びつける共同埋め込み空間を学習します。
学習した整合性は、人間の知覚に基づく評価として三者間の類似度判断（韻律的および語彙をまたぐ類似）と、文脈–バックチャネルの適合度タスクで検証されます。
結果は、従来手法よりも文脈からバックチャネルを検索する性能が大きく向上することを示し、バックチャネルの形式が長い会話文脈の影響を強く受けることも示唆しています。
さらに、学習埋め込みはWavLMの生特徴よりも人間の判断により近いことが示され、LLMによる文脈モデリングとコントラスト学習の効果が確認されます。