SGLangによる効率的な推論：テキスト生成と画像生成

The Batch / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

この記事は、テキスト生成および画像生成の両方のタスクに対して、SGLangを用いた効率的な推論に焦点を当てた短期講座を紹介している。
対象は中級レベルの実践者であり、生成モデルを実行する際の性能とスループットを向上させたい人を想定している。
内容では、SGLangベースの推論ワークフローをデプロイするための実践的なセットアップと利用パターンが強調されている。
テキストと画像生成を扱うことで、この講座はSGLangを効率的なマルチモーダル推論のための統一的なアプローチとして位置づけている。

短期講座中級1時間 19分

SGLangによる効率的な推論：テキストと画像の生成

講師: Richard Chen

今すぐ申し込む

中級
1時間 19分
7つのビデオレッスン
3つのコード例
講師: Richard Chen
RadixArk、LMSys

学べること

LLMの推論がトークンごとにどのように動くのか、なぜ規模が大きくなるとコストが高くなるのか、そしてKVキャッシュが中間値を保存・再利用することで冗長な計算をどう解消するのかを理解します。
SGLangのRadixAttentionを実装して、ユーザー間・リクエスト間でのキャッシュを拡張し、それによって得られる実際のスピードアップを測定します。

返却形式: {"translated": "翻訳されたHTML"}
拡散モデルにSGLangのキャッシュと並列処理の戦略を適用し、テキストと同じ原理を用いて画像生成を高速化します。

このコースについて

LMSys と RadixArk と共同で構築され、RadixArk のテクニカルスタッフである Richard Chen が教える SGLang による効率的な推論：テキストと画像生成 を紹介します。

本番環境で LLM を動かすのは高コストです。その費用の多くは冗長な計算によって発生しています。新しいリクエストが来るたびに、同じシステムプロンプトと共有コンテキストを最初から再処理させてしまうからです。SGLang はオープンソースの推論フレームワークで、すでに行われた計算をキャッシュし、将来のリクエストで再利用することで、その無駄をなくします。

このコースでは、推論がどのように動くか（入力トークンから生成された出力まで）についての明確なイメージを作り、なぜメモリのボトルネックが存在するのかを学びます。そこから、1 回のリクエスト内で中間の注意（attention）値を保存して再利用するために、KV キャッシュをスクラッチから実装します。さらに、RadixAttention によって、ラディックスツリーを使って共通のプレフィックスを特定し、リクエスト間で KV キャッシュを共有する SGLang のアプローチへと進みます。最後に、拡散モデルを用いた画像生成にも同じ最適化の考え方を適用します。

詳細には、あなたは次を行います：

LLM の推論に関するメンタルモデルを構築する：モデルが入力トークンを処理し、出力トークンを 1 つずつ生成していく様子、そして計算コストがどこで積み上がるのかを理解します。
注意機構をスクラッチから実装し、中間のキー・バリュー（key-value）テンソルを保存して再利用するための KV キャッシュを構築し、1 回のリクエスト内での冗長な計算を削減します。
SGLang の RadixAttention を用いて、リクエスト間でのキャッシュを拡張する。ラディックスツリーでユーザー間にまたがる共有プレフィックスを特定し、繰り返し処理をスキップします。
画像生成を高速化するために、拡散モデルに SGLang のキャッシュ戦略を適用し、さらなる高速化のためのマルチ GPU 並列処理を探ります。
新たに登場する手法や、このコースの最適化原理が今後の発展にどう適用されるかも含め、推論分野がどこへ向かっているのかを調査します。

受講の最後には、今日の最も効率的な AI システムを支えるキャッシュ戦略について実践的な経験を得て、さらに、それらの最適化をあなた自身のモデルに大規模に適用するためのツールも手に入れられます。

こんな方におすすめ

本番環境での LLM 推論をより深く理解し、最適化したいと考えている開発者や ML 実務者。Python と、基本的な言語モデルの概念に関する知識があることを推奨します。

コース概要

7 Lessons・3 コード例

導入
動画・3 分
推論の概要
動画・10 分
LLM 推論の基礎

コード例付きの動画・11分
高度なLLM推論の最適化
コード例付きの動画・18分
SGLang Diffusion
コード例付きの動画・19分
推論の未来—ここからどこへ向かうのか？
動画・6分
結論
動画・1分
クイズ
読解・10分

講師

Richard Chen

技術スタッフのメンバー、RadixArk

SGLangによる効率的な推論：テキストと画像の生成

中級
1時間19分
動画レッスン7本
コード例3つ
講師：Richard Chen
RadixArk、LMSys

無料で申し込む

返却形式: {"translated": "翻訳されたHTML"}

クイズやプロジェクトなどの追加の学習機能は DeepLearning.AI Pro に含まれています。今すぐご確認ください

今すぐ登録

生成AIについてもっと学びたいですか？

厳選したAIニュース、コース、イベントの更新情報や、DeepLearning.AIからのアンドリューの考えもあわせて、学習を継続しましょう！

無料で登録

Black Hat USA

AI Business

Black Hat Asia

AI Business

ザハ事務所出身の建築家、AI前提の設計法を実践設計者はキュレーターに

日経XTECH

Excelの「Copilotで編集」を使う、開いたブックを直接分析して新シート作成

日経XTECH

AirPodsでライブ翻訳を使ってみよう、タイムラグを前提に会話を進める

日経XTECH

SGLangによる効率的な推論：テキスト生成と画像生成

要点

SGLangによる効率的な推論：テキストと画像の生成

学べること

このコースについて

こんな方におすすめ

コース概要