広告

Gemma 4がリリースされました

Reddit r/LocalLLaMA / 2026/4/3

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Google DeepMindの新しいオープンウェイト・モデルファミリーであるGemma 4がリリースされました。テキストと画像を入力として受け取り、テキストを出力します(小型モデルでは音声にも対応)。
  • このリリースには、4つのサイズ(E2B、E4B、26B、31B)それぞれに対する、事前学習済みモデルと指示チューニング版の両方が含まれています。モバイル端末からサーバーまで幅広い展開が可能です。
  • Gemma 4は非常に長いコンテキストウィンドウをサポートしており、小型モデルで最大128Kトークン、中型モデルで最大256Kトークンです。加えて、140以上の言語にわたる多言語対応を維持しています。
  • アーキテクチャとしては、DenseとMixture-of-Experts(MoE)の両方の設計が用意されており、構成可能な「思考モード」を備えた高性能な“reasoner(推論器)”として位置づけられています。
  • 画像にとどまらず、E2B/E4Bモデルでは動画と音声を含むモダリティを拡張しており、コーディング能力やエージェント的な能力の向上を強調しています。
Gemma 4 はリリースされました

https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF

https://huggingface.co/unsloth/gemma-4-31B-it-GGUF

https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF

https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF

https://huggingface.co/collections/google/gemma-4

Gemma 4 の新機能 https://www.youtube.com/watch?v=jZVBoFOJK-Q

Gemma は Google DeepMind が構築したオープンモデルのファミリーです。Gemma 4 のモデルはマルチモーダルで、テキストと画像の入力を扱い(小型モデルでは音声にも対応)テキスト出力を生成します。今回のリリースには、事前学習済みおよび指示チューニング版の両方におけるオープンウェイトモデルが含まれます。Gemma 4 は最大 256K トークンのコンテキストウィンドウを備え、140 を超える言語における多言語対応を維持しています。

Dense および Mixture-of-Experts(MoE)アーキテクチャの両方を特徴としており、Gemma 4 はテキスト生成、コーディング、推論といったタスクに適しています。モデルは E2BE4B26B A4B31B の 4 つの異なるサイズで利用可能です。サイズの幅があることで、高性能なスマートフォンからノートパソコン、サーバーまで幅広い環境に展開でき、最先端 AI へのアクセスを民主化します。

Gemma 4 は重要な 能力およびアーキテクチャ上の進歩 を導入します:

  • 推論 – ファミリー内のすべてのモデルは、高い推論能力を備えるよう設計されており、思考モードを設定できます。
  • 拡張されたマルチモーダル性 – 可変アスペクト比と解像度のサポートにより、Text、Image(すべてのモデル)を処理し、Video と Audio(E2B および E4B モデルでネイティブに提供)にも対応します。
  • 多様で効率的なアーキテクチャ – スケーラブルな導入のために、さまざまなサイズの Dense および Mixture-of-Experts(MoE)版を提供します。
  • オンデバイス向けに最適化 – 小型モデルは、ノートパソコンやモバイルデバイス上での効率的なローカル実行のために特別に設計されています。
  • コンテキストウィンドウの拡大 – 小型モデルは 128K のコンテキストウィンドウを備え、中型モデルは 256K に対応します。
  • 強化されたコーディング & エージェント型機能 – ネイティブな関数呼び出しサポートに加えて、コーディングベンチマークで顕著な改善を達成し、高い能力を持つ自律エージェントを可能にします。
  • ネイティブなシステムプロンプト対応 – Gemma 4 は system ロールに対するネイティブサポートを導入し、より構造化され制御可能な会話を可能にします。

モデル概要

Gemma 4 のモデルは、各サイズにおいて最前線レベルの性能を提供するよう設計されており、モバイルおよびエッジデバイス(E2B、E4B)から、コンシューマー向け GPU およびワークステーション(26B A4B、31B)までの導入シナリオを対象としています。推論、エージェント型ワークフロー、コーディング、マルチモーダルな理解に適しています。

これらのモデルは、ローカルのスライディングウィンドウ注意とフルのグローバル注意をインターリーブするハイブリッド注意メカニズムを採用しており、最終層は常にグローバルになります。このハイブリッド設計により、軽量モデルの処理速度と低いメモリフットプリントを実現しつつ、複雑で長いコンテキストのタスクに必要な深い理解は失いません。長いコンテキストに向けてメモリを最適化するために、グローバル層では Keys と Values を統一し、Proportional RoPE(p-RoPE)を適用します。

主要な能力

Gemma 4 のモデルは、テキスト、ビジョン、音声にまたがる幅広いタスクを扱います。主な能力は以下のとおりです:

  • 思考 – モデルが回答する前に段階的に考えることを可能にする内蔵推論モード。
  • ロングコンテキスト – 最大 128K トークン(E2B/E4B)および 256K トークン(26B A4B/31B)のコンテキストウィンドウ。
  • 画像理解 – オブジェクト検出、Document/PDF の解析、画面および UI の理解、チャートの理解、OCR(多言語を含む)、筆跡認識、そして指し示し。画像は可変のアスペクト比および解像度で処理できます。
  • 動画理解 – フレームのシーケンスを処理して動画を分析します。
  • インターリーブされたマルチモーダル入力 – 1 つのプロンプト内で、任意の順序でテキストと画像を自由に混在させられます。
  • 関数呼び出し – 構造化されたツール利用をネイティブにサポートし、エージェント型ワークフローを可能にします。
  • コーディング – コード生成、補完、修正。
  • 多言語対応 – 35+ 言語を最初からサポートし、140+ 言語で事前学習されています。
  • 音声(E2B と E4B のみ) – 複数の言語にわたる音声認識(ASR)および音声から翻訳済みテキストへの変換。

https://preview.redd.it/3dbm6nhrvssg1.png?width=1282&format=png&auto=webp&s=8625d113e9baa3fab79a780fd074a5b36e4d6f0c

https://preview.redd.it/mtzly5myxssg1.png?width=1200&format=png&auto=webp&s=5c95a73ff626ebeafd3645d2e00697c793fa0b16

投稿者 /u/jacek2023
[link] [comments]

広告