z-labがgemma-4-26B-A4B-it-DFlashをリリース。もう試した人いる?

Reddit r/LocalLLaMA / 2026/5/8

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Z-LabがGemma 4 26B向けのDFlashを数日前に公開したが、これまであまり注目されていなかったと記事内で言及されています。
  • DFlashはMTPよりも高速な並列ブロック拡散のドラフティングに加え、反復をまたいで状態(コンテキストバッファ、KVキャッシュ位置、RoPEオフセットなど)を保持できる「ステートフル」設計だと説明されています。
  • セッションが長くなってコンテキストが増えるほどDFlashが有利になり、MTPはKVキャッシュが膨らみやすいため劣化が早まる可能性がある、という期待が示されています。
  • 一方で、Gemma 4 26BやQwen 3.6 35Bのようなスパースモデルでどれほど速度差が出るのか、またvLLM限定で検証できないことから、ユーザーに実測結果の共有が求められています。
  • さらに、lcpp(llama.cpp)など他基盤に対するDFlash対応状況が気にされており、どこまで実装が進んでいるかの情報が求められています。
z-lab released gemma-4-26B-A4B-it-DFlash. Anybody tried it yet?

ここ数日ずっとMTPの話ばかりでした。どういうわけか、Zラボが数日前にGemma4 26B向けのDflashをリリースしたことが見落とされているようです。私の理解するところでは、DflashはMTPよりも優れた代替になるはずです。理由は、より速い並列ブロック拡散のドラフティングができること、そして状態を持つ(反復をまたいで、コンテキストバッファ、KVキャッシュの位置、RoPEオフセット用の永続的な状態を維持できる)ことです。これにより、セッションが長くなりコンテキストが増えていくほど、dflashは大幅に良くなるはずです。技術的には、KVキャッシュがより速く膨らみ始めるので、MTPはより早く劣化するはずです。ただ、Gemma 4 26BやQwen 3.6 35Bのような疎モデルに対して、dflashがどれくらいの速度差をもたらすのかがとても気になります。残念ながら、これはvllm専用のようなのでテストできません。これを使ってみた方はいませんか?速度面で有意な改善はありましたか?それと、lcppにおけるdflashの対応状況はどうなっていますか?もうすぐ近い段階でしょうか?

submitted by /u/PaceZealousideal6091
[link] [comments]