SpikeMLLM：モダリティ固有の時間スケールと時間圧縮によるスパイク型マルチモーダル大規模言語モデル

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

SpikeMLLMは、資源の限られた環境での推論における計算量と消費エネルギーを抑えることを目的とした、マルチモーダル大規模言語モデル（MLLM）のスパイクベースフレームワークです。
既存の一様なスパイク符号化に頼らず、Modality-Specific Temporal Scales（MSTS）をModality Evolution Discrepancy（MED）に基づいて導入することで、スパイキングをマルチモーダルへ拡張する際の重要な課題に対処します。
Temporally Compressed LIF（TC-LIF）により、T=L-1からT=log2(L)-1へタイムステップを圧縮し、高解像度画像入力で生じるタイムステップ展開の高コストを削減します。
4つのMLLMと複数のマルチモーダルベンチマークでの実験では、攻めたタイムステップ圧縮（Tv/Tt=3/4）でもFP16基準に対する性能差が小さく、ほぼロスレスな性能が示されます。
スパイク駆動のデータパスに合わせて設計した専用RTLアクセラレータでは、共同設計のデプロイメント条件の下で、FP16 GPUベースラインに比べてスループット9.06倍かつ電力効率25.8倍を達成し、アルゴリズム×ハードウェア協調設計の有望性を示唆しています。

要旨: マルチモーダル大規模言語モデル（MLLMs）は目覚ましい進歩を遂げてきましたが、推論時に大きな計算オーバーヘッドとエネルギー消費が生じ、その結果、リソース制約のある環境への導入が制限されています。スパイキングニューラルネットワーク（SNNs）は、疎なイベント駆動計算を特徴とし、ニューロモーフィック・ハードウェア上で固有のエネルギー効率の利点を提供しますが、それをMLLMへ拡張するには2つの主要な課題があります。すなわち、異種のモダリティにより一様なスパイク符号化では不十分であること、そして高解像度の画像入力によりタイムステップ展開のオーバーヘッドが増幅されることです。私たちはSpikeMLLMを提案します。これはMLLM向けの初のスパイクベースの枠組みであり、スパイキング表現空間において既存のANN量子化手法を統一し、さらに、モダリティ進化不一致（MED）に導かれ、タイムステップ圧縮のためにTemporally Compressed LIF（TC-LIF）を組み込んだモダリティ固有の時間スケール（MSTS）を取り入れます。これによりタイムステップ数をT=L-1からT=log2(L)-1へ圧縮します。多様なマルチモーダルベンチマークにまたがる4つの代表的なMLLMに対する実験では、SpikeMLLMが、攻めたタイムステップ圧縮（Tv/Tt=3/4）下でもほぼロスレスな性能を維持することが示されました。InternVL2-8BおよびQwen2VL-72Bにおいて、FP16ベースラインに対する平均ギャップはそれぞれわずか0.72%および1.19%でした。さらに、スパイク駆動データパスに最適化した専用のRTLアクセラレータを開発し、展開を見据えた共同設計（co-design）条件において、FP16 GPUベースラインに対してスループットが9.06倍高く、電力効率が25.8倍優れていることを観測しました。これにより、効率的なマルチモーダル知能のためのアルゴリズム・ハードウェア共同設計が有望であることが示唆されます。