モダリティ対応型ゼロショット・プルーニングとスパース・アテンションによる効率的なマルチモーダル・エッジ推論

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、電力予算が変動しセンサのドロップアウトが予測できない状況下で、エッジデバイス向けにマルチモーダル・モデルの効率的な圧縮を可能にする SentryFuse を提案する。
SentryGate は学習時にモダリティ条件付きの重要度スコアを学習し、その後、デプロイ時にポスト圧縮の微調整を必要とせずに、アテンションヘッドとフィードフォワードチャネルをプルーニングする。
SentryAttend は、密な自己注意をスパースなグループ化クエリ（grouped-query）アテンションに置き換えることで、マルチモーダル・アーキテクチャにおける計算ボトルネックを削減する。
複数のマルチモーダル応用とバックボーンに対する実験により、プルーニング基準手法に比べて平均精度が向上（一般に 12.7%、モダリティドロップアウトでは最大 18%）し、かつ微調整なしでメモリ（28.2%）とレイテンシ（最大 1.63×）を削減できることが示される。

要旨: エッジデバイスは、変動する電力予算や予測不能なセンサードロップアウトにもかかわらず精度を維持しなければならないマルチモーダルセンシング・パイプラインをますます実行するようになっています。既存の剪定（pruning）手法はこれらの条件下でうまく機能しません。一般に、圧縮後に微調整（fine-tuning）が必要であり、配備時のエネルギーを $10 imes$ 以上消費します。また、存在するセンサが何であるかを無視した静的な重要度スコアを割り当てます。私たちは、これら2つの課題を同時に扱うSentryFuseフレームワークを提案します。まず第一に、SentryGateは、訓練中に一次サリエンシ（saliency）による教師信号を用いてモダリティ条件付きの重要度スコアを学習し、その後、微調整なしで配備時に注意（attention）ヘッドおよびフィードフォワードチャネルを剪定します。第二に、SentryAttendは、現代のマルチモーダル・アーキテクチャにおける重要なボトルネックである密な自己注意（dense self-attention）を、疎なグループド・クエリ注意（sparse grouped-query attention）に置き換え、3つの異なるマルチモーダル・アーキテクチャにおいてGFLOPsを合計でネット15%削減します。3つのアプリケーションおよびマルチモーダル・バックボーンにわたり、SentryGateは最強の剪定ベースラインに対して平均で12.7%の精度向上を達成し、さらにモダリティのドロップアウト条件下では最大18%まで向上します。SentryFuseは、追加の微調整なしにメモリを28.2%削減し、レイテンシを最大 $1.63 imes$ 低減し、モダリティに応じたゼロショット圧縮を、異種エッジハードウェア上でのマルチモーダル知能へ向けた実用的な道筋として確立します。