IWP：大規模視覚言語モデルにおける暗黙の重み刈り込みとしてのトークン刈り込み

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は「デュアルフォーム（dual form）」の観点から、大規模な視覚言語モデルにおける注意（attention）を分析し、各トークンのキー／バリュー対から得られるランク1更新を用いて構成される暗黙の線形層として注意を捉える。
トークン刈り込みを、元の注意の重み行列を最もよく近似するための、これらのランク1更新の最適な部分集合の選択として定式化し、学習なしの刈り込み（training-free pruning）フレームワークを可能にする。
LVLMにおけるソフトマックス注意に対して、著者らは新しい刈り込み指標を導出し、トークンの情報量の大きさと、他のトークンとどれだけ情報を重複しているかを同時に考慮する。
新しい指標に基づいてトークンを効率よく選択するために、本手法は「Progressive Chunked Maximal Marginal Relevance（漸進的チャンク化最大マージナル関連度）」を導入し、性能—効率のトレードオフの改善を目指す。
実験結果として、本アプローチは従来の刈り込み手法よりも計算量削減に対してより良い性能を達成すると報告されており、同時に既存手法を解釈するための視点も提供する。

AI Business

日経XTECH

日経XTECH

Reddit r/LocalLLaMA

Dev.to