WSVD: 低精度ビジョン言語モデルの高速かつ効率的な実行のための加重低ランク近似

arXiv cs.LG / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文では、VLM（Vision-Language Models）における実運用のレイテンシを低減するための、より粒度の細かいSVD（特異値分解）計算パターンとしてWSVD（Weighted Low-Rank Approximation）を提案する。従来のSVD派生手法では、実際のところ大きな速度向上を提供できていなかった。
WSVDは、SVDプロセス中に重み要素の相対的な重要度を適応的に加重することで、低ランク表現を圧縮しつつ精度の保持をより適切に行う。
本手法はさらに、重みと活性の両方を量子化することで拡張し、タスク品質を劣化させることなく効率を高めることを目指す。
実験では、他のアプローチと比較して1.8×を超えるデコーディング速度向上を報告し、精度は維持している。
著者らは、再現と採用を可能にするため、実装を指定のGitHubリポジトリでオープンソースとして公開している。

Abstract

特異値分解（SVD）は、画像キャプショニングや視覚に関する質問応答といった中心的なタスクで用いられる視覚言語モデル（VLM）における計算負荷を削減するための重要な手法となっています。低ランク演算を可能にするために、これまでに複数の効率的なSVD派生手法が提案されてきましたが、実際にはモデル実行中に実質的なレイテンシ削減を達成することが依然として難しいことが分かりました。この制約に対処するため、私たちは新しい計算パターンを導入し、SVDをより細かな粒度で適用します。これにより、実際に測定可能な形で実行レイテンシの改善が可能になります。さらに、重み要素はそれぞれ相対的な重要度が異なることを踏まえ、SVDプロセス中に各要素へ相対的重要度を適応的に割り当てることで精度をより適切に保持し、そのうえで重みと活性の両方に対して量子化を適用する形でこの枠組みを拡張し、非常に効率的なVLMを実現します。総合すると、私たちは~\textit{Weighted SVD}（WSVD）を提案し、精度を維持しながら