大規模音声言語モデルにおけるパラ言語的認識の再顕在化
arXiv cs.CL / 2026/3/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 大規模音声言語モデルは、通常、内容中心のパラダイムのためパラ言語的手掛かりを無視する傾向にあり、本研究はそれを解決することを目指す。
- 著者らは、LALMs 内のパラ言語的層と意味理解層を同時に特定するための、5つの多様な層別分析を導入する。
- 彼らは、パラ言語的強化ファインチューニング(PE-FT)プロトコルを提案し、選択的層のファインチューニングと補助的な二段階分類ヘッドを含める。
- 実験は、PE-FT がパラ言語的認識を効率的に再顕在化させ、全層ファインチューニングのパフォーマンスを上回ることができることを示している。
- 結果は、パラ言語的手掛かりを活用してモデル理解と応答を豊かにすることで、人間-LALM の相互作用を向上させる可能性を示唆している。
大規模音声言語モデル(LALMs)は、人間との音声モダリティにおける対話を拡大し、パラ言語的手掛かりが暗黙のうちにユーザーの文脈を示すため、対話の潜在的な可能性を大きく開く。しかし、現状の内容中心のパラダイムに基づくLALMsは通常、これらのパラ言語的手掛かりを無視し、クエリ内容のみを基に応答する。本研究では、LALMsにおけるパラ言語的認識を再顕在化させるべく、パラ言語的層と意味理解層を共同で識別する5つの多様な層別分析を導入する。これらの洞察に基づき、LALMsをパラ言語的対応能力を備えさせるためのパラ言語的強化ファインチューニング(PE-FT)プロトコルを提案する。具体的には(1)選択的層のファインチューニング、(2)補助的な二段階分類ヘッドを含む。実験の結果、PE-FTプロトコルはパラ言語的認識を効率的かつ効果的に再顕在化させ、全層ファインチューニング戦略の性能を上回ることさえあることが示されている。

