Temporal Contrastive Decoding:大規模音声言語モデル向けのトレーニング不要手法
arXiv cs.AI / 2026/4/20
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、統一デコーダを用いる大規模音声言語モデルにおいて、時間的に滑らかな文脈を言語の事前知識により優先してしまい、過渡的な音響手がかりが十分に活用されない「時間的スムージング・バイアス」を指摘している。
- 提案手法はTemporal Contrastive Decoding(TCD)で、学習を追加せずに推論時のデコードでこの影響を抑えるために、入力を時間的にぼかして再エンコードしたスローパスと元の入力のトークンロジットを対比し、次トークンを補正する。
- TCDはトークン単位のロジット更新を小さな候補集合に限定して適用し、自動正規化された安定性スコアでブラー窓と更新スケールを決める。
- 不確実性や音声への依存度に基づく段階的ゲートにより、更新が必要な場合にのみ適用されるよう設計されている。
- MMAUおよびAIR-Benchで、強力な統一型LALMに対して一貫した改善が報告され、主要コンポーネントの寄与やモデル設計間での挙動を調べるためのアブレーションおよび適用可能性分析も行われている。



