VRAM制約下のクライアントで効率的に行うxLM推論

arXiv cs.LG / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、VRAMが限られたクライアント端末上で、高精度なxLM（LLMとVLM）を損失なしで動かすための「pipelined sharding（パイプライン型シャーディング）」を提案している。
サブレイヤー単位のモデル分割、CPUオフロード、コピーと計算のパイプライン化、VRAM内でのテンソル優先配置を組み合わせることで、time-to-first-token（TTFT）とtokens per second（TPS）の両方を改善しつつ、環境や推論条件に柔軟に適応する。
VLM向けには、pipelined shardingに加えて、llama.cpp実装ベースの「VLMOpt」を統合し、視覚テンソルのCPUオフロード、flash attention、視覚モデルと言語モデル間のVRAM競合回避を行う。
NVIDIAのIGI SDKおよびCosmos-Reason1（CR1）を対象にした評価では、LLMのインタラクティブ推論でTTFT最大6.7倍、TPS最大30倍、CR1のVRAM需要が最大10分の1になり、バッチモードではスループット最大8.2倍の向上が報告されている。
本研究は2026年の第9回MLSysカンファレンス（Industry Track）での採択が決定しており、コードと成果物はGitHubで公開されている。

Abstract

次世代のクライアントAIの革新の波を迎えるにあたり、高精度な大規模言語モデル（LLM）および視覚言語モデル（VLM）を（xLMsとして総称される）クライアント端末上で、効率的かつ損失のない推論を可能にすることが喫緊の課題となっている。これに対処するため本研究では、密なLLMおよび混合専門家（MoE）LLMの双方に対して、VRAM制約下で効率的な推論を実現することを目的とした、新規のベンチマーク・プロファイルに基づくCPU-GPUハイブリッドのスケジューリング手法である、パイプライン化されたシェーディングを提案する。サブレイヤー単位でのモデルシェーディング、CPUオフロード、パイプライン化されたコピー・コンピュート、ならびにVRAM内での優先的なテンソル配置の組み合わせにより、時間対最初のトークン（TTFT）とトークン毎秒（TPS）の両指標を最適化しつつ、システムおよび推論条件に対して柔軟に適応する。効率的で高精度なVLM推論のために、パイプライン化されたシェーディングに加えて、三つの先行アイデアを（VLMOptとして総称して）理解の行き届いた llama.cpp の実装と組み合わせる。すなわち、視覚テンソルのCPUオフロード、フラッシュアテンション、そして視覚モデルと語彙（言語）モデルのVRAM重なりの回避である。これらの改良は、重要なNVIDIA製品2つの今後のリリースにおけるクライアントxLM推論の改善を目的としている。具体的には、In-Game Inferencing ソフトウェア開発キット（IGI SDK）および、Cosmos-Reason1（CR1）物理AI推論VLMである。複数のモデルとクライアントシステムにまたがる厳密な評価に基づくハイライトは以下のとおりである。インタラクティブ利用では、LLMにおいてTTFTが最大6.7倍、TPSが最大30倍向上し、CR1推論ではVRAM要求が10分の1に減少する。一方、バッチモードでは、同様に対応する強力なベースラインと比較してスループットが最大8.2倍向上する。本論文は第9回MLSysカンファレンス（Industry Track）2026に採択された。コードおよびアーティファクトは以下で入手可能: https://github.com/deepshnv/pipeshard-mlsys26-ae