SGLangによる効率的な推論:テキスト生成と画像生成

The Batch / 2026/4/9

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事は、テキスト生成および画像生成の両方のタスクに対して、SGLangを用いた効率的な推論に焦点を当てた短期講座を紹介している。
  • 対象は中級レベルの実践者であり、生成モデルを実行する際の性能とスループットを向上させたい人を想定している。
  • 内容では、SGLangベースの推論ワークフローをデプロイするための実践的なセットアップと利用パターンが強調されている。
  • テキストと画像生成を扱うことで、この講座はSGLangを効率的なマルチモーダル推論のための統一的なアプローチとして位置づけている。
短期講座中級1時間 19分

SGLangによる効率的な推論:テキストと画像の生成

講師: Richard Chen

RadixArkLMSys
  • 中級
  • 1時間 19分
  • 7つのビデオレッスン
  • 3つのコード例
  • 講師: Richard Chen
    • RadixArk
    • LMSys
    RadixArk、LMSys

学べること

  • LLMの推論がトークンごとにどのように動くのか、なぜ規模が大きくなるとコストが高くなるのか、そしてKVキャッシュが中間値を保存・再利用することで冗長な計算をどう解消するのかを理解します。

  • SGLangのRadixAttentionを実装して、ユーザー間・リクエスト間でのキャッシュを拡張し、それによって得られる実際のスピードアップを測定します。

    返却形式: {"translated": "翻訳されたHTML"}
  • 拡散モデルにSGLangのキャッシュと並列処理の戦略を適用し、テキストと同じ原理を用いて画像生成を高速化します。

このコースについて

LMSys と RadixArk と共同で構築され、RadixArk のテクニカルスタッフである Richard Chen が教える SGLang による効率的な推論:テキストと画像生成 を紹介します。

本番環境で LLM を動かすのは高コストです。その費用の多くは冗長な計算によって発生しています。新しいリクエストが来るたびに、同じシステムプロンプトと共有コンテキストを最初から再処理させてしまうからです。SGLang はオープンソースの推論フレームワークで、すでに行われた計算をキャッシュし、将来のリクエストで再利用することで、その無駄をなくします。

このコースでは、推論がどのように動くか(入力トークンから生成された出力まで)についての明確なイメージを作り、なぜメモリのボトルネックが存在するのかを学びます。そこから、1 回のリクエスト内で中間の注意(attention)値を保存して再利用するために、KV キャッシュをスクラッチから実装します。さらに、RadixAttention によって、ラディックスツリーを使って共通のプレフィックスを特定し、リクエスト間で KV キャッシュを共有する SGLang のアプローチへと進みます。最後に、拡散モデルを用いた画像生成にも同じ最適化の考え方を適用します。

詳細には、あなたは次を行います:

  • LLM の推論に関するメンタルモデルを構築する:モデルが入力トークンを処理し、出力トークンを 1 つずつ生成していく様子、そして計算コストがどこで積み上がるのかを理解します。
  • 注意機構をスクラッチから実装し、中間のキー・バリュー(key-value)テンソルを保存して再利用するための KV キャッシュを構築し、1 回のリクエスト内での冗長な計算を削減します。
  • SGLang の RadixAttention を用いて、リクエスト間でのキャッシュを拡張する。ラディックスツリーでユーザー間にまたがる共有プレフィックスを特定し、繰り返し処理をスキップします。
  • 画像生成を高速化するために、拡散モデルに SGLang のキャッシュ戦略を適用し、さらなる高速化のためのマルチ GPU 並列処理を探ります。
  • 新たに登場する手法や、このコースの最適化原理が今後の発展にどう適用されるかも含め、推論分野がどこへ向かっているのかを調査します。

受講の最後には、今日の最も効率的な AI システムを支えるキャッシュ戦略について実践的な経験を得て、さらに、それらの最適化をあなた自身のモデルに大規模に適用するためのツールも手に入れられます。

こんな方におすすめ

本番環境での LLM 推論をより深く理解し、最適化したいと考えている開発者や ML 実務者。Python と、基本的な言語モデルの概念に関する知識があることを推奨します。

コース概要

7 Lessons・3 コード例
  • 導入

    動画3 分

  • 推論の概要

    動画10 分

  • LLM 推論の基礎

    コード例付きの動画11分

  • 高度なLLM推論の最適化

    コード例付きの動画18分

  • SGLang Diffusion

    コード例付きの動画19分

  • 推論の未来—ここからどこへ向かうのか?

    動画6分

  • 結論

    動画1分

  • クイズ

    読解10分

講師

Richard Chen

Richard Chen

技術スタッフのメンバー、RadixArk

SGLangによる効率的な推論:テキストと画像の生成

  • 中級
  • 1時間19分
  • 動画レッスン7本
  • コード例3つ
  • 講師:Richard Chen
    • RadixArk
    • LMSys
    RadixArk、LMSys
無料で申し込む
返却形式: {"translated": "翻訳されたHTML"}

クイズやプロジェクトなどの追加の学習機能は DeepLearning.AI Pro に含まれています。今すぐご確認ください

生成AIについてもっと学びたいですか?

厳選したAIニュース、コース、イベントの更新情報や、DeepLearning.AIからのアンドリューの考えもあわせて、学習を継続しましょう!