賢いAIは、なぜ
一語ずつしか書けないのか。

これまでの言語モデルは、文章を左から一語ずつ順番に紡いでいました。その「順番待ち」をやめ、文章をまとめて整えるのが DiffusionGemma。手元のPCで、生成速度が最大4倍に——その仕組みを図解で解きほぐします。

AI Navigate 編集部·2026.06.11·読了 6分

The Bottleneck

速さを縛っていたのは
「順番待ち」だった

GPT も Claude も Gemma も、これまでの大規模言語モデル（LLM）はすべて 自己回帰（Autoregressive）という方式で文章を作ってきました。直前までに書いた語を見て、次の一語を予測する——その繰り返しです。100語の回答なら、原理的に 100回の順番待ちが発生します。

ここが見落とされがちな弱点でした。GPU をどれだけ速くしても、「次の語は前の語が決まらないと出せない」という逐次性そのものは飛ばせません。とりわけクラウドではなく手元のPCで動かすとき、この一語ずつの待ち時間が、体感速度を決める一番の重しになっていたのです。

自己回帰（従来）	拡散（DiffusionGemma）
左から一語ずつ順に生成	枠全体をまとめて並列に整える
出力語数の分だけ前進が必要	数ステップで複数の語を同時確定
長い回答ほど待ち時間が伸びる	ローカル生成で最大 4 倍の高速化
逐次のため並列化しにくい	1ステップで最大256トークンを並列に

文章を、左から書くのではなく、
霧の中から一度に浮かび上がらせる。

How It Works

拡散は、こう書く

画像生成の「拡散モデル」と同じ発想です。まず全体をノイズで埋め、それを少しずつ整えて文章を立ち上げます。

FIG. ノイズで埋めた枠を数ステップで整え、複数の語を同時に確定させる

ノイズで埋める

まず出力する場所を、意味のない「ノイズ」のトークンで一面に埋めます。自己回帰のように左端から書き始めるのではなく、回答全体の“下書きの枠”を最初に確保するイメージです。

まとめて整える（デノイズ）

各ステップで枠の全体を見渡し、ノイズを正しい語へと少しずつ置き換えます。このとき一語ずつではなく、複数の語を一度に確定できるのが自己回帰との決定的な違いです。

数回で立ち上がる

整える操作を数ステップ繰り返すと、霧が晴れるように文章が現れます。出力語数が増えても繰り返しの回数は大きく変わらないため、長い回答ほど速さの恩恵が効いてきます。

Under the Hood

なぜ、手元のPCで
4倍も速くなるのか

速さの正体は二つ。「動かす脳を絞る」MoE と、「まとめて出す」拡散ヘッドの組み合わせです。

FIG. 巨大なモデルの一部だけを動かし（疎な計算）、出力はまとめて並列に確定する

26B

総パラメータ（MoE）

3.8B

1ステップの活性化のみ

×4

ローカル生成の高速化

カギは MoE（Mixture of Experts／専門家混合）です。26B という大きな本体を持ちながら、一度の処理で実際に動かすのは 3.8B 分だけ。質問に応じて必要な“専門家”だけを起こすので、消費電力も計算量も抑えられます。だからこそ、データセンターではなく手元のGPUでも現実的に動きます。

そこに 拡散ヘッドが乗ります。自己回帰が「N語を出すのにN回前進」だったのに対し、拡散は1ステップで最大256トークン分をまとめてデノイズします。つまり繰り返しの回数を、出力の長さから切り離せる。これが、長文ほど効く高速化の理屈です。

In Practice

手元で、すぐ試せる

Apache 2.0 のオープンウェイトとして公開され、主要ツールに初日から対応しています。

ローカルGPUで動かす

RTX を積んだPCなら、API課金もトークン上限も気にせず生成できます。NVIDIA が RTX / DGX Spark 向けに最適化済みです。

既存パイプラインに差す

Hugging Face Transformers・vLLM・Unsloth に day-zero 対応。いま動いている構成にそのまま組み込めます。

エッジ・オンプレ推論

クラウドに送れない社内データも、手元で完結。通信遅延のないエッジ推論との相性も良好です。

Frontier

これは、転換点になる

テキスト生成に拡散を使う試みは、これまで Mercury（Inception）のような専門スタートアップの実験段階にとどまっていました。今回大手フロンティアラボが、汎用LLM規模で初めてテキスト拡散アーキテクチャを実装・公開したことが、業界的なターニングポイントです。「速さは品質とのトレードオフ」という前提そのものが、揺らぎ始めています。

もちろん、最先端モデルの品質に全面的に並ぶわけではありません。速さと品質をどう使い分けるか——その選択肢が増えた、と捉えるのが現実的です。クラウドAPIで十分な人には誤差でも、ローカル環境派・エッジ推論を見据える人にとっては、確かな一手になります。

速さを縛っていたのは「順番待ち」だった