| https://github.com/ggml-org/llama.cpp/pull/21309 (ありがとうございます rerri) HF から https://github.com/huggingface/transformers/pull/45192 【Gemma 4】(INSET_PAPER_LINK) は、事前学習および指示チューニングされたバリアントを備えたマルチモーダルモデルで、1B、13B、27B のパラメータがあります。アーキテクチャは、これまでの Gemma バージョンとほぼ同じです。主な違いは、固定トークン予算で画像を出力できるビジョン・プロセッサと、縦方向と横方向の軸にわたって視覚に特化した情報を符号化するための空間 2D RoPE です。 この PR はおそらく密(dense)の場合にしか適用されないので、MoE とは別に必要です [リンク] [コメント] |
it looks like it will be soon ����
Reddit r/LocalLLaMA / 2026/4/2
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 新しい llama.cpp のプルリクエストは、Hugging Face の Gemma 4 マルチモーダルモデルの更新を対象としているように見える対応を追加します。
- Gemma 4 は、1B、13B、27B パラメータ規模で、事前学習済みおよび命令チューニング済みのバリアントを備えたマルチモーダルモデルとして説明されています。
- この記事では、視覚向けの主要なアーキテクチャ変更点を取り上げています。具体的には、固定トークン予算の範囲内で出力を生成する視覚プロセッサ、そして高さと幅にまたがって情報を符号化する空間 2D RoPE です。
- 議論では、この PR はおそらく密(dense)モデルのみに適用されるため、Mixture-of-Experts(MoE)版には別途の対応が必要になることを示唆しています。



