
- 中級
- 1時間 19分
- 7つのビデオレッスン
- 3つのコード例
- 講師: Richard Chen
学べること
LLMの推論がトークンごとにどのように動くのか、なぜ規模が大きくなるとコストが高くなるのか、そしてKVキャッシュが中間値を保存・再利用することで冗長な計算をどう解消するのかを理解します。
- 返却形式: {"translated": "翻訳されたHTML"}
SGLangのRadixAttentionを実装して、ユーザー間・リクエスト間でのキャッシュを拡張し、それによって得られる実際のスピードアップを測定します。
拡散モデルにSGLangのキャッシュと並列処理の戦略を適用し、テキストと同じ原理を用いて画像生成を高速化します。
このコースについて
LMSys と RadixArk と共同で構築され、RadixArk のテクニカルスタッフである Richard Chen が教える SGLang による効率的な推論:テキストと画像生成 を紹介します。
本番環境で LLM を動かすのは高コストです。その費用の多くは冗長な計算によって発生しています。新しいリクエストが来るたびに、同じシステムプロンプトと共有コンテキストを最初から再処理させてしまうからです。SGLang はオープンソースの推論フレームワークで、すでに行われた計算をキャッシュし、将来のリクエストで再利用することで、その無駄をなくします。
このコースでは、推論がどのように動くか(入力トークンから生成された出力まで)についての明確なイメージを作り、なぜメモリのボトルネックが存在するのかを学びます。そこから、1 回のリクエスト内で中間の注意(attention)値を保存して再利用するために、KV キャッシュをスクラッチから実装します。さらに、RadixAttention によって、ラディックスツリーを使って共通のプレフィックスを特定し、リクエスト間で KV キャッシュを共有する SGLang のアプローチへと進みます。最後に、拡散モデルを用いた画像生成にも同じ最適化の考え方を適用します。
詳細には、あなたは次を行います:
- LLM の推論に関するメンタルモデルを構築する:モデルが入力トークンを処理し、出力トークンを 1 つずつ生成していく様子、そして計算コストがどこで積み上がるのかを理解します。
- 注意機構をスクラッチから実装し、中間のキー・バリュー(key-value)テンソルを保存して再利用するための KV キャッシュを構築し、1 回のリクエスト内での冗長な計算を削減します。
- SGLang の RadixAttention を用いて、リクエスト間でのキャッシュを拡張する。ラディックスツリーでユーザー間にまたがる共有プレフィックスを特定し、繰り返し処理をスキップします。
- 画像生成を高速化するために、拡散モデルに SGLang のキャッシュ戦略を適用し、さらなる高速化のためのマルチ GPU 並列処理を探ります。
- 新たに登場する手法や、このコースの最適化原理が今後の発展にどう適用されるかも含め、推論分野がどこへ向かっているのかを調査します。
受講の最後には、今日の最も効率的な AI システムを支えるキャッシュ戦略について実践的な経験を得て、さらに、それらの最適化をあなた自身のモデルに大規模に適用するためのツールも手に入れられます。
こんな方におすすめ
本番環境での LLM 推論をより深く理解し、最適化したいと考えている開発者や ML 実務者。Python と、基本的な言語モデルの概念に関する知識があることを推奨します。
コース概要
7 Lessons・3 コード例導入
動画・3 分
推論の概要
動画・10 分
LLM 推論の基礎
コード例付きの動画・11分
高度なLLM推論の最適化
コード例付きの動画・18分
SGLang Diffusion
コード例付きの動画・19分
推論の未来—ここからどこへ向かうのか?
動画・6分
結論
動画・1分
クイズ
読解・10分
講師
SGLangによる効率的な推論:テキストと画像の生成
- 中級
- 1時間19分
- 動画レッスン7本
- コード例3つ
- 講師:Richard Chen
クイズやプロジェクトなどの追加の学習機能は DeepLearning.AI Pro に含まれています。今すぐご確認ください
生成AIについてもっと学びたいですか?
厳選したAIニュース、コース、イベントの更新情報や、DeepLearning.AIからのアンドリューの考えもあわせて、学習を継続しましょう!





