最近、連続バッチ処理(continuous batching)の概念を学びました。これは、複数のユーザーが、ロード済みのLLMとやり取りしても、1秒あたりのトークン数(tokens per second)を大きく減らさずに済むというものです。主な制限はKVキャッシュ(KV cache)です。
これを単一ユーザーのワークフローに適用することは可能なのでしょうか。たとえば、AIに10個の異なるソースを分析させる場合、通常は32kのコンテキストウィンドウ内でそれらを順番に読み込むため、遅くなります。
代わりに、連続バッチ処理を使って、コンテキストウィンドウが3.2kのそれぞれのプロセスを10個並列に開始し、ソースを同時に読み込むようにできないでしょうか。理論上は、待ち時間を大幅に減らせるはずです。
このアプローチは可能ですか?可能であれば、実装方法を教えてください。
[リンク] [コメント]




