Stream-CQSA:柔軟なワークロードスケジューリングで注意計算におけるメモリ不足(OOM)を回避する
arXiv cs.LG / 2026/4/23
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、長文コンテキストのLLMにおける重要なボトルネックである「完全な自己注意が二次メモリを必要とし、OOMが頻発する」問題に取り組みます。
- その解決として、CQS Divideを提案し、注意をフルシーケンスから独立したサブシーケンス計算に分解し、それらを再構成することで完全一致の結果を得られるようにします。
- さらに、Stream-CQSAはメモリ適応型のスケジューリング枠組みとして、任意のメモリ予算に収まるサイズのサブ問題へ注意を分割します。
- この手法により、注意は単一のモノリシックな処理ではなく、複数のスケジューラブルなタスク群として扱えるようになり、デバイス間通信なしで柔軟な実行が可能になります。
- 実験ではメモリスケーリングの予測可能性が示され、近似誤差や注意の数学的定義の変更なしに、ストリーミングで単一GPU上で数十億トークンの完全な注意を実行できることが示されています。




