トポロジーに配慮した大規模ビジョン・言語モデルのレイヤープルーニング

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、大規模ビジョン・言語モデル（LVLM）向けに、計算量とメモリ使用量を削減してリソース制約のある環境でのデプロイを可能にする、トポロジーに配慮したレイヤープルーニング手法を提案しています。
レイヤーごとの隠れ状態を点群として表現し、単体複体（simplicial complexes）と zigzag persistent homology を用いて層間のトポロジー的一貫性を定量化します。
局所的な類似度や静的な代理信号に依存する従来手法の弱点を踏まえ、表現の遷移に重要な層を保持することを狙った適応的なプルーニングを可能にします。
複数のマルチモーダル・ベンチマークでの実験により、幅広いスパース率の範囲で既存のプルーニング法より一貫して性能が高いことが示されています。
著者は、指定の GitHub リポジトリでコードを公開しています。

要旨: 大規模言語モデル（LLM）は、自然言語の理解や推論において強力な能力を示してきました。一方で、視覚入力を組み込む最近の拡張により、マルチモーダル情報を処理できるようになっています。これらの進展にもかかわらず、大規模視覚言語モデル（LVLMs）は大きな計算コストとメモリコストを要するため、計算資源が限られた状況での実運用が妨げられています。既存の層プルーニング手法は、通常、局所的な類似度指標や静的なプロキシ信号に依存しており、モデルの深さ方向における表現のグローバルかつ動的な変化を捉えられていません。その結果、遷移にとって重要な層が削除されてしまうことがしばしばあります。この制約に対処するために、我々はLVLM向けのトポロジーを考慮した層プルーニングの枠組みを提案します。具体的には、層ごとの隠れ状態を点群として表現し、
\textit{単体複体（simplicial complexes）} を用いてその進化をモデル化します。
\textit{ジグザグ永続ホモロジー（zigzag persistent homology）} を活用することで、層間のトポロジー的一貫性を定量化し、重要な表現遷移を保持する適応的なプルーニングを可能にします。多様なマルチモーダルベンチマークに対する大規模な実験により、提案手法が、広範な疎度（sparsity）比にわたって一貫して既存のプルーニング手法を上回ることを示します。コードは https://github.com/zpc456/TopoV で公開しています。