VRAM制約下のクライアントで効率的に行うxLM推論
arXiv cs.LG / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、VRAMが限られたクライアント端末上で、高精度なxLM(LLMとVLM)を損失なしで動かすための「pipelined sharding(パイプライン型シャーディング)」を提案している。
- サブレイヤー単位のモデル分割、CPUオフロード、コピーと計算のパイプライン化、VRAM内でのテンソル優先配置を組み合わせることで、time-to-first-token(TTFT)とtokens per second(TPS)の両方を改善しつつ、環境や推論条件に柔軟に適応する。
- VLM向けには、pipelined shardingに加えて、llama.cpp実装ベースの「VLMOpt」を統合し、視覚テンソルのCPUオフロード、flash attention、視覚モデルと言語モデル間のVRAM競合回避を行う。
- NVIDIAのIGI SDKおよびCosmos-Reason1(CR1)を対象にした評価では、LLMのインタラクティブ推論でTTFT最大6.7倍、TPS最大30倍、CR1のVRAM需要が最大10分の1になり、バッチモードではスループット最大8.2倍の向上が報告されている。
- 本研究は2026年の第9回MLSysカンファレンス(Industry Track)での採択が決定しており、コードと成果物はGitHubで公開されている。




