フォーカスセッション:マルチモーダル基盤モデルを高速化するためのハードウェア/ソフトウェア手法

arXiv cs.AI / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル基盤モデルを高速化するために、ハードウェアとソフトウェアの両面からトランスフォーマーブロックを共同最適化する多層的アプローチを提案している。
  • 階層を意識した混合精度量子化と構造的プルーニングにより、計算量とメモリ使用量を削減し、トランスフォーマーブロックおよびMLPチャネルを対象にしている。
  • 推論の高速化として、スペキュラティブ・デコーディング、小規模→大規模のモデル・カスケード(軽量な自己テストで大きいモデルへエスカレーションするか判断)を用い、さらにシーケンス長・視覚解像度/ストライド・グラフレベルの演算子融合を共同最適化している。
  • ハードウェアに合わせたデータフロー最適化とメモリ効率の高い注意機構により、オンチップの帯域とレイテンシ予算を満たすことを含めている。
  • 医療系MFMおよびコード生成タスクで有効性を示し、今後はエネルギー効率の高いスパイキングMFMへの拡張を述べている。

要旨: 本研究は、多用途なモーダル基盤モデル(MFM)を効率的に高速化するための、多層的な手法を提示する。これは、トランスフォーマーブロックのハードウェアとソフトウェアの共同設計と、計算量およびメモリ要件を削減する最適化パイプラインを組み合わせるものである。モデル開発の段階では、領域固有の適応のための微調整(ファインチューニング)によって性能向上を行う。さらに、本手法は、MFMを最適化するためのハードウェアおよびソフトウェアの技術を取り入れる。具体的には、階層を意識した混合精度量子化と構造的プルーニングを用いたMFM圧縮を、トランスフォーマーブロックとMLPチャネルに対して行う。また、推測デコーディング(speculative decoding)による操作の最適化、クエリを小から大のカスケードへとルーティングするモデルカスケーディング、そして大きなモデルへエスカレーションすべきかどうかを軽量な自己テストで判断する仕組みを採用する。加えて、シーケンス長、視覚的解像度・ストライド、およびグラフレベルのオペレータ融合を共同最適化する。モデルを効率的に実行するために、処理データフローは基盤となるハードウェアアーキテクチャに基づいて最適化され、オンチップの帯域とレイテンシの予算を満たすためにメモリ効率の高い注意(attention)を併用する。これを支えるため、トランスフォーマーワークロード向けの専用ハードウェアアクセラレータを用いる。これは、専門家による設計、またはLLM支援による設計アプローチによって開発可能である。提案手法の有効性は、医療系MFMおよびコード生成タスクにおいて実証し、エネルギー効率の高いスパイキングMFMに向けた拡張で結論づける。