共有:
Text Diffusion Model

賢いAIは、なぜ
一語ずつしか書けないのか。

これまでの言語モデルは、文章を左から一語ずつ順番に紡いでいました。その「順番待ち」をやめ、文章をまとめて整えるのが DiffusionGemma。手元のPCで、生成速度が最大4倍に——その仕組みを図解で解きほぐします。

AI Navigate 編集部·2026.06.11·読了 6分
AUTOREGRESSIVE 一語 → 一語 → … 出力する語数だけ繰り返す DIFFUSION ノイズ 数ステップ 全体を一度に整える
01
The Bottleneck

速さを縛っていたのは
「順番待ち」だった

GPT も Claude も Gemma も、これまでの大規模言語モデル(LLM)はすべて 自己回帰(Autoregressive)という方式で文章を作ってきました。直前までに書いた語を見て、次の一語を予測する——その繰り返しです。100語の回答なら、原理的に 100回の順番待ちが発生します。

ここが見落とされがちな弱点でした。GPU をどれだけ速くしても、「次の語は前の語が決まらないと出せない」という逐次性そのものは飛ばせません。とりわけクラウドではなく手元のPCで動かすとき、この一語ずつの待ち時間が、体感速度を決める一番の重しになっていたのです。

自己回帰(従来)拡散(DiffusionGemma)
左から一語ずつ順に生成枠全体をまとめて並列に整える
出力語数の分だけ前進が必要数ステップで複数の語を同時確定
長い回答ほど待ち時間が伸びるローカル生成で最大 4 倍の高速化
逐次のため並列化しにくい1ステップで最大256トークンを並列に

文章を、左から書くのではなく、
霧の中から一度に浮かび上がらせる


02
How It Works

拡散は、こう書く

画像生成の「拡散モデル」と同じ発想です。まず全体をノイズで埋め、それを少しずつ整えて文章を立ち上げます。

t = 3 ノイズ t = 1 整いつつ t = 0 確定 同時に
FIG. ノイズで埋めた枠を数ステップで整え、複数の語を同時に確定させる
01

ノイズで埋める

まず出力する場所を、意味のない「ノイズ」のトークンで一面に埋めます。自己回帰のように左端から書き始めるのではなく、回答全体の“下書きの枠”を最初に確保するイメージです。

02

まとめて整える(デノイズ)

各ステップで枠の全体を見渡し、ノイズを正しい語へと少しずつ置き換えます。このとき一語ずつではなく、複数の語を一度に確定できるのが自己回帰との決定的な違いです。

03

数回で立ち上がる

整える操作を数ステップ繰り返すと、霧が晴れるように文章が現れます。出力語数が増えても繰り返しの回数は大きく変わらないため、長い回答ほど速さの恩恵が効いてきます。

03
Under the Hood

なぜ、手元のPCで
4倍も速くなるのか

速さの正体は二つ。「動かす脳を絞る」MoE と、「まとめて出す」拡散ヘッドの組み合わせです。

26B EXPERTS 1ステップで動くのは 3.8B だけ DIFFUSION HEAD 最大 256 トークンを同時にデノイズ
FIG. 巨大なモデルの一部だけを動かし(疎な計算)、出力はまとめて並列に確定する
26B
総パラメータ(MoE)
3.8B
1ステップの活性化のみ
×4
ローカル生成の高速化

カギは MoE(Mixture of Experts/専門家混合)です。26B という大きな本体を持ちながら、一度の処理で実際に動かすのは 3.8B 分だけ。質問に応じて必要な“専門家”だけを起こすので、消費電力も計算量も抑えられます。だからこそ、データセンターではなく手元のGPUでも現実的に動きます。

そこに 拡散ヘッドが乗ります。自己回帰が「N語を出すのにN回前進」だったのに対し、拡散は1ステップで最大256トークン分をまとめてデノイズします。つまり繰り返しの回数を、出力の長さから切り離せる。これが、長文ほど効く高速化の理屈です。

04
In Practice

手元で、すぐ試せる

Apache 2.0 のオープンウェイトとして公開され、主要ツールに初日から対応しています。

ローカルGPUで動かす

RTX を積んだPCなら、API課金もトークン上限も気にせず生成できます。NVIDIA が RTX / DGX Spark 向けに最適化済みです。

既存パイプラインに差す

Hugging Face Transformers・vLLM・Unsloth に day-zero 対応。いま動いている構成にそのまま組み込めます。

エッジ・オンプレ推論

クラウドに送れない社内データも、手元で完結。通信遅延のないエッジ推論との相性も良好です。


05
Frontier

これは、転換点になる

テキスト生成に拡散を使う試みは、これまで Mercury(Inception)のような専門スタートアップの実験段階にとどまっていました。今回 大手フロンティアラボが、汎用LLM規模で初めてテキスト拡散アーキテクチャを実装・公開したことが、業界的なターニングポイントです。「速さは品質とのトレードオフ」という前提そのものが、揺らぎ始めています。

もちろん、最先端モデルの品質に全面的に並ぶわけではありません。速さと品質をどう使い分けるか——その選択肢が増えた、と捉えるのが現実的です。クラウドAPIで十分な人には誤差でも、ローカル環境派・エッジ推論を見据える人にとっては、確かな一手になります。

AI Navigate — Daily Update · 2026.06.11

DiffusionGemma — 一語ずつをやめた、ローカルで4倍速いAI | AI Navigate