要旨: 大規模音声言語モデル(LSLMs)は、音響の忠実性を確保するために一般に高いトークン率(tokens/s)で動作しますが、その結果、シーケンス長は根本となる意味内容を大きく上回り、推論コストが過大になります。本論文では、このような粒度の細かいトークン単位処理が本当に必要なのかを、実験的に改めて検証します。層ごとのオラクル介入により、構造化された冗長性階層が明らかになります。浅い層は本質的な音響詳細を符号化する一方で、深い層では極端な冗長性が見られ、これにより大幅な圧縮が可能になります。これらの知見に動機づけられ、学習不要の類似性ベースのトークン結合メカニズムである Affinity Pooling を提案します。この手法を入力層と深い層の両方で戦略的に適用することで、意味情報を損なうことなく音声表現を効果的に圧縮します。3つのタスクにまたがる広範な評価により、我々の手法は、競争力のある精度を維持しつつ、prefilling FLOPs を 27.48\% 削減することを示します。実運用においても、顕著な効率向上が確認され、長い発話に対して最大 1.7
~ imes のメモリ節約および 1.1
~ imes の time-to-first-token(最初のトークンまでの時間)高速化が得られます。本結果は、完全に独立したトークン表現が必須であるという必要性に挑戦し、LSLM の効率性に関する新たな視点を提供します。
すべての発話トークンに対して異なる表現が必要なのか?大規模音声言語モデルにおける冗長性の解明と活用
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模音声言語モデル(LSLM)が高いレートのトークン表現を用いることで、基盤となる意味内容よりも系列が過度に長くなり、その結果、推論コストが高くなる点を主張している。
- 著者らは層ごとの「オラクル介入(oracle interventions)」を用いて、冗長性の階層構造を見出した。浅い層は微細な音響情報を必要とする一方、より深い層には極めて大きな冗長性が含まれており、それを圧縮できるという。
- 提案手法は、学習不要で類似度に基づくトークン統合(メソッド)である「Affinity Pooling」。入力および深い層で音声表現を圧縮しつつ、意味情報は保持する。
- 3つのタスクでの実験により効率向上が示されている。例えば、精度を競合水準に保ったまま、prefilling FLOPs を 27.48% 削減できた。また、実運用(deployment)では最大で約1.7×のメモリ節約と、長い発話での time-to-first-token が約1.1×高速化された。
- 本研究は、「各音声トークンに対して別個の表現が必要である」という前提に挑み、LSLM の効率改善に向けた新たな方向性を提示する。



