Abstract
特異値分解(SVD)は、画像キャプショニングや視覚に関する質問応答といった中心的なタスクで用いられる視覚言語モデル(VLM)における計算負荷を削減するための重要な手法となっています。低ランク演算を可能にするために、これまでに複数の効率的なSVD派生手法が提案されてきましたが、実際にはモデル実行中に実質的なレイテンシ削減を達成することが依然として難しいことが分かりました。この制約に対処するため、私たちは新しい計算パターンを導入し、SVDをより細かな粒度で適用します。これにより、実際に測定可能な形で実行レイテンシの改善が可能になります。さらに、重み要素はそれぞれ相対的な重要度が異なることを踏まえ、SVDプロセス中に各要素へ相対的重要度を適応的に割り当てることで精度をより適切に保持し、そのうえで重みと活性の両方に対して量子化を適用する形でこの枠組みを拡張し、非常に効率的なVLMを実現します。総合すると、私たちは~\textit{Weighted SVD}(WSVD)を提案し、精度を維持しながら1.8\timesを超えるデコード速度向上を達成することで、他の手法よりも優れた性能を示します。コードをオープンソースで公開しています: \href{https://github.com/SAI-Lab-NYU/WSVD}{\texttt{https://github.com/SAI-Lab-NYU/WSVD}}