意味論と音声学的視点からの音声コーデックのプロービング
arXiv cs.CL / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、語彙意味構造と音声的内容を分離するために、語彙レベルのプロービング課題、層ごとの表現分析、CKAなどのクロスモーダル整合性指標を用いて音声トークナイザーを分析します。
- 現在のトークナイザーは主に音声的情報を捉え、語彙意味構造を捉えることは限定的であることが示されています。
- この意味論的-音声的ミスマッチは、意味内容がテキスト由来の意味論と一致すると仮定した場合に、マルチモーダルLLMの性能を低下させる可能性があります。
- 次世代の音声トークン化手法の設計に向けた、語彙意味をより適切にエンコードし、クロスモーダル整合性を改善する実用的な含意が示されています。
音声トークナイザーは、マルチモーダル系において音声を大規模言語モデル(LLMs)と繋ぐうえで不可欠です。これらのトークナイザーは、下流の理解と生成のために、意味論情報と音響情報の両方を保持することが期待されています。しかし、出現する証拠は、音声表現で「意味論的」と呼ばれる内容がテキスト由来の意味論と一致しないことを示唆しており、この不一致がマルチモーダルLLMの性能を低下させる可能性があります。本研究では、広く用いられている複数の音声トークナイザーがエンコードする情報を系統的に分析し、それらの意味論的内容と音声的内容を、語彙レベルのプロービング課題、層ごとの表現分析、CKAのようなクロスモーダル整合性指標を用いて分離します。私たちの結果は、現在のトークナイザーが主に音声的情報を捉え、語彙意味構造を捉えることは限定的であることを示しています。さらに、次世代の音声トークン化手法の設計に向けた、語彙意味をより適切にエンコードし、クロスモーダル整合性を改善する実用的な含意を導出します。




