Temporal Contrastive Decoding:大規模音声言語モデル向けのトレーニング不要手法

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、統一デコーダを用いる大規模音声言語モデルにおいて、時間的に滑らかな文脈を言語の事前知識により優先してしまい、過渡的な音響手がかりが十分に活用されない「時間的スムージング・バイアス」を指摘している。
  • 提案手法はTemporal Contrastive Decoding(TCD)で、学習を追加せずに推論時のデコードでこの影響を抑えるために、入力を時間的にぼかして再エンコードしたスローパスと元の入力のトークンロジットを対比し、次トークンを補正する。
  • TCDはトークン単位のロジット更新を小さな候補集合に限定して適用し、自動正規化された安定性スコアでブラー窓と更新スケールを決める。
  • 不確実性や音声への依存度に基づく段階的ゲートにより、更新が必要な場合にのみ適用されるよう設計されている。
  • MMAUおよびAIR-Benchで、強力な統一型LALMに対して一貫した改善が報告され、主要コンポーネントの寄与やモデル設計間での挙動を調べるためのアブレーションおよび適用可能性分析も行われている。

Abstract

大規模音声言語モデル(LALM)は音声、音、音楽にわたって一般化しますが、統一デコーダは \emph{時間的平滑化バイアス}を示し得ます。すなわち、過渡的な音響手がかりが、言語の事前分布によりよく支えられ、時間的に滑らかな文脈を優先するために十分活用されず、その結果、音に基づく出力がより具体性に欠けるものになります。私たちは a training-free(追加学習不要)の統一LALM向けデコーディング手法である\ \emph{Temporal Contrastive Decoding(TCD)}を提案し、この効果を推論時に緩和します。TCDは、入力波形を平滑化して再符号化することで時間的にぼかしたスローパスの視点を構築し、そのうえで元の視点とスローパス視点の次トークンのlogitsを対比(コントラスト)します。対比の信号は、小さな候補集合に制限されたトークン単位のlogit更新として適用されます。自己正規化された安定性スコアによりブラー窓と更新スケールを設定し、不確実性および音への依存度に基づく段階的なゲートによって、必要な場合にのみ更新を有効化します。MMAUおよびAIR-Benchでの実験では、強力な統一LALMに対して一貫した改善が示されます。さらに、主要コンポーネントの寄与を分析し、TCDが大規模音声言語モデルの設計の違いのもとでどのように振る舞うかを調べるために、アブレーションおよびアーキテクチャ適用可能性に関する調査を行います。