すべての発話トークンに対して異なる表現が必要なのか？大規模音声言語モデルにおける冗長性の解明と活用

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模音声言語モデル（LSLM）が高いレートのトークン表現を用いることで、基盤となる意味内容よりも系列が過度に長くなり、その結果、推論コストが高くなる点を主張している。
著者らは層ごとの「オラクル介入（oracle interventions）」を用いて、冗長性の階層構造を見出した。浅い層は微細な音響情報を必要とする一方、より深い層には極めて大きな冗長性が含まれており、それを圧縮できるという。
提案手法は、学習不要で類似度に基づくトークン統合（メソッド）である「Affinity Pooling」。入力および深い層で音声表現を圧縮しつつ、意味情報は保持する。
3つのタスクでの実験により効率向上が示されている。例えば、精度を競合水準に保ったまま、prefilling FLOPs を 27.48% 削減できた。また、実運用（deployment）では最大で約1.7×のメモリ節約と、長い発話での time-to-first-token が約1.1×高速化された。
本研究は、「各音声トークンに対して別個の表現が必要である」という前提に挑み、LSLM の効率改善に向けた新たな方向性を提示する。

要旨: 大規模音声言語モデル（LSLMs）は、音響の忠実性を確保するために一般に高いトークン率（tokens/s）で動作しますが、その結果、シーケンス長は根本となる意味内容を大きく上回り、推論コストが過大になります。本論文では、このような粒度の細かいトークン単位処理が本当に必要なのかを、実験的に改めて検証します。層ごとのオラクル介入により、構造化された冗長性階層が明らかになります。浅い層は本質的な音響詳細を符号化する一方で、深い層では極端な冗長性が見られ、これにより大幅な圧縮が可能になります。これらの知見に動機づけられ、学習不要の類似性ベースのトークン結合メカニズムである Affinity Pooling を提案します。この手法を入力層と深い層の両方で戦略的に適用することで、意味情報を損なうことなく音声表現を効果的に圧縮します。3つのタスクにまたがる広範な評価により、我々の手法は、競争力のある精度を維持しつつ、prefilling FLOPs を 27.48\% 削減することを示します。実運用においても、顕著な効率向上が確認され、長い発話に対して最大 $~$ 1.7 $imes$ のメモリ節約および $~$ 1.1 $imes$ の time-to-first-token（最初のトークンまでの時間）高速化が得られます。本結果は、完全に独立したトークン表現が必須であるという必要性に挑戦し、LSLM の効率性に関する新たな視点を提供します。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

すべての発話トークンに対して異なる表現が必要なのか？大規模音声言語モデルにおける冗長性の解明と活用

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」