リリース5.8.0

Transformers(HuggingFace)Releases / 2026/5/6

📰 ニュースTools & Practical UsageModels & Research

要点

  • DeepSeek-V4は、DeepSeekの次世代MoE(Mixture of Experts)言語モデルとして、DeepSeek-V3からの複数のアーキテクチャ改善を備えて登場しました。
  • Multi-head Latent Attentionをハイブリッドなローカル+ロングレンジのアテンション設計に置き換え、残差接続をManifold-Constrained Hyper-Connections(mHC)へ変更しています。
  • 最初の数層のMoEは、静的なtoken-id → expert-idハッシュテーブルを用いてブートストラップし、専門家選択を導きます。
  • DeepSeek-V4はDeepSeek-V4-Flash、DeepSeek-V4-Pro、およびそれぞれの-Base事前学習版として提供され、同一のアーキテクチャを共有しつつ、幅・深さ・エキスパート数・重みが異なります。
  • リリースには、Hugging FaceのドキュメントとDeepSeek-V4の論文へのリンクが含まれています。

v5.8.0 リリース

新しいモデルの追加

DeepSeek-V4

image

DeepSeek-V4 は DeepSeek による次世代の MoE(Mixture of Experts:専門家混合)言語モデルで、DeepSeek-V3 に対していくつかのアーキテクチャ上の革新を導入しています。アーキテクチャは Multi-head Latent Attention(MLA)を、ハイブリッドなローカル+ロングレンジの注意(attention)設計に置き換えます。さらに、残差接続を Manifold-Constrained Hyper-Connections(mHC)に切り替え、最初の数段の MoE 層を静的な token-id → expert-id のハッシュテーブルでブートストラップします。この実装は DeepSeek-V4-Flash、DeepSeek-V4-Pro、およびそれらの -Base 事前学習バリアントをカバーしており、同じアーキテクチャを共有しつつ、幅(width)、深さ(depth)、専門家(expert)の数、重みが異なります。

リンク: ドキュメント | 論文

Gemma 4 Assistant

image

Gemma 4 Assistant は小型でテキストのみのモデルで、Multi-Token Prediction(MTP)手法と関連する候補生成器を用いて、Gemma 4 モデルの推測デコード(speculative decoding)を可能にします。このモデルは他の Gemma 4 モデルと同じ Gemma4TextModel のバックボーンを共有していますが、モデル全体を通して KV シェアリングを使用します。これにより、対象モデルによってすでに埋められた KV キャッシュを再利用でき、プリフィル(pre-fill)段階を完全にスキップできます。このアーキテクチャにはクロスアテンションが含まれており、対象モデルのコンテキストを最大限に活用することで、アシスタントがドラフトラウンドごとにより多くのドラフトトークンを正確に予測できるようになります。

リンク: ドキュメント

GraniteSpeechPlus

image

Granite Speech PlusはGranite Speechのバリアントであり、エンコーダの最終隠れ状態を、特徴次元に沿ってその中間隠れ状態の任意の部分集合と連結したものを消費することで、プロジェクタを強化します。これは、テキストプロンプトに応答することで音声を文字起こしし、話者注釈や単語レベルのタイムスタンプを提供できるマルチモーダルな音声対テキストモデルです。本モデルは、音声エンコーダ、クエリ変換器(query transformer)プロジェクタ、言語モデル、任意のLoRAアダプタなど、Granite Speechと同じアーキテクチャ構成要素を継承しています。

リンク: ドキュメンテーション

  • @zvikによる#45695での新しいGranite-Speech-Plusモデル(#45695)のサポート

Granite4Vision

Granite Vision 4.1は、IBM Researchによるエンタープライズ向けドキュメントデータ抽出のために設計された、ビジョン-言語モデルです。グラフ/チャート抽出(Chart2CSV、Chart2Summary、Chart2Code)、テーブル抽出(JSON、HTML、OTSL)、意味的なキー-バリューペア抽出に特化しています。本モデルはLLaVA-NeXTをベースに、SigLIP2 Vision Encoder、Window Q-Former Projectors、DeepStack Feature Injection(8つのvision-to-LLMインジェクションポイント)を含むアーキテクチャ上の革新を取り入れています。

リンク: ドキュメンテーション

EXAONE-4.5

image

EXAONE 4.5は、LG AI Researchによって開発された最初のオープンウェイトのビジョン言語モデルです。既存のEXAONE 4.0の枠組みに、専用のビジュアルエンコーダを統合することで、マルチモーダル能力を拡張しています。モデルのパラメータ総数は330億で、そのうち12億はビジョンエンコーダ由来です。一般的なベンチマークにおいて競争力のある性能を達成し、さらに文書理解や韓国語文脈推論において、同程度の規模のモデルよりも優れた性能を発揮します。EXAONE 4.0をベースに、153,600トークンへ拡張された語彙、最大256Kトークンのコンテキストウィンドウのサポート、Multi-Token Prediction(MTP)メカニズムなどの主要な強化を行っています。

リンク: ドキュメンテーション | 論文 | ブログ記事

返却形式: {"translated": "翻訳されたHTML"}

PP-FormulaNet

PP-FormulaNet-L と PP-FormulaNet_plus-L は、テーブル構造認識向けの軽量モデルであり、ドキュメントや自然画像の中にあるテーブル構造を正確に認識することに重点を置いています。これらのモデルは SLANet シリーズの一部で、画像からテキストへのタスクで使用でき、具体的には画像から数学的な数式とテーブル構造を検出し処理する用途に対応しています。

リンク: ドキュメント

  • [モデル] PP-FormulaNet のモデルサポートを追加(#45626)を @zhang-prog#45626 で行いました

互換性のない変更

Apex の統合はライブラリから削除されました(T5 と関連モデルにおける RMSNorm の利用も含む)。そのため、混合精度や fused ops に Apex を頼っているユーザーは、代わりに PyTorch のネイティブな同等機能へ移行してください。

トークン化

DeepSeek R1 の蒸留(Qwen2)および DeepSeek OCR モデルについて、トークナイザのマッピング問題を修正し、PreTrainedTokenizer.convert_ids_to_tokens における大きなパフォーマンス低下も解決しました。skip_special_tokens=True の場合に、毎回のイテレーションで特殊トークン集合を作り直してしまっていたため、このコードパスで約 300 倍の高速化になりました。

  • qwen2 マッピングのための deepseek r1 蒸留トークナイザ修正(#45741)を @itazap が [#45741] で行いました
  • DeepSeek OCR は Hub 上で誤ったトークナイザクラスを指定しています(#45739)を @hmellor が [#45739] で行いました
  • PythonBackend のトークナイザ convert_ids_to_tokens が遅い問題の修正(#45728)を @i3hz が [#45728] で行いました

バグ修正および改善

主なコミュニティへの貢献

以下の貢献者が、直近のリリースにおいてライブラリに重要な変更を加えました: