リリース5.8.0

Transformers（HuggingFace）Releases / 2026/5/6

📰 ニュースTools & Practical UsageModels & Research

原文を読む →

共有:

要点

DeepSeek-V4は、DeepSeekの次世代MoE（Mixture of Experts）言語モデルとして、DeepSeek-V3からの複数のアーキテクチャ改善を備えて登場しました。
Multi-head Latent Attentionをハイブリッドなローカル＋ロングレンジのアテンション設計に置き換え、残差接続をManifold-Constrained Hyper-Connections（mHC）へ変更しています。
最初の数層のMoEは、静的なtoken-id → expert-idハッシュテーブルを用いてブートストラップし、専門家選択を導きます。
DeepSeek-V4はDeepSeek-V4-Flash、DeepSeek-V4-Pro、およびそれぞれの-Base事前学習版として提供され、同一のアーキテクチャを共有しつつ、幅・深さ・エキスパート数・重みが異なります。
リリースには、Hugging FaceのドキュメントとDeepSeek-V4の論文へのリンクが含まれています。

v5.8.0 リリース

新しいモデルの追加

DeepSeek-V4

DeepSeek-V4 は DeepSeek による次世代の MoE（Mixture of Experts：専門家混合）言語モデルで、DeepSeek-V3 に対していくつかのアーキテクチャ上の革新を導入しています。アーキテクチャは Multi-head Latent Attention（MLA）を、ハイブリッドなローカル＋ロングレンジの注意（attention）設計に置き換えます。さらに、残差接続を Manifold-Constrained Hyper-Connections（mHC）に切り替え、最初の数段の MoE 層を静的な token-id → expert-id のハッシュテーブルでブートストラップします。この実装は DeepSeek-V4-Flash、DeepSeek-V4-Pro、およびそれらの -Base 事前学習バリアントをカバーしており、同じアーキテクチャを共有しつつ、幅（width）、深さ（depth）、専門家（expert）の数、重みが異なります。

リンク: ドキュメント | 論文

最初のモデル追加: DeepSeek V4（#45643）を @ArthurZucker が #45643 で提供

Gemma 4 Assistant

Gemma 4 Assistant は小型でテキストのみのモデルで、Multi-Token Prediction（MTP）手法と関連する候補生成器を用いて、Gemma 4 モデルの推測デコード（speculative decoding）を可能にします。このモデルは他の Gemma 4 モデルと同じ Gemma4TextModel のバックボーンを共有していますが、モデル全体を通して KV シェアリングを使用します。これにより、対象モデルによってすでに埋められた KV キャッシュを再利用でき、プリフィル（pre-fill）段階を完全にスキップできます。このアーキテクチャにはクロスアテンションが含まれており、対象モデルのコンテキストを最大限に活用することで、アシスタントがドラフトラウンドごとにより多くのドラフトトークンを正確に予測できるようになります。

リンク: ドキュメント

最初のモデル（#45788）を @SindhuRaghuram97 が #45788 で提供

GraniteSpeechPlus

Granite Speech PlusはGranite Speechのバリアントであり、エンコーダの最終隠れ状態を、特徴次元に沿ってその中間隠れ状態の任意の部分集合と連結したものを消費することで、プロジェクタを強化します。これは、テキストプロンプトに応答することで音声を文字起こしし、話者注釈や単語レベルのタイムスタンプを提供できるマルチモーダルな音声対テキストモデルです。本モデルは、音声エンコーダ、クエリ変換器（query transformer）プロジェクタ、言語モデル、任意のLoRAアダプタなど、Granite Speechと同じアーキテクチャ構成要素を継承しています。

リンク: ドキュメンテーション

@zvikによる#45695での新しいGranite-Speech-Plusモデル（#45695）のサポート

Granite4Vision

Granite Vision 4.1は、IBM Researchによるエンタープライズ向けドキュメントデータ抽出のために設計された、ビジョン-言語モデルです。グラフ/チャート抽出（Chart2CSV、Chart2Summary、Chart2Code）、テーブル抽出（JSON、HTML、OTSL）、意味的なキー-バリューペア抽出に特化しています。本モデルはLLaVA-NeXTをベースに、SigLIP2 Vision Encoder、Window Q-Former Projectors、DeepStack Feature Injection（8つのvision-to-LLMインジェクションポイント）を含むアーキテクチャ上の革新を取り入れています。

リンク: ドキュメンテーション

@artem-spectorによる#45597でのGranite 4.1 Vision（granite4_vision）の追加（#45597）

EXAONE-4.5

EXAONE 4.5は、LG AI Researchによって開発された最初のオープンウェイトのビジョン言語モデルです。既存のEXAONE 4.0の枠組みに、専用のビジュアルエンコーダを統合することで、マルチモーダル能力を拡張しています。モデルのパラメータ総数は330億で、そのうち12億はビジョンエンコーダ由来です。一般的なベンチマークにおいて競争力のある性能を達成し、さらに文書理解や韓国語文脈推論において、同程度の規模のモデルよりも優れた性能を発揮します。EXAONE 4.0をベースに、153,600トークンへ拡張された語彙、最大256Kトークンのコンテキストウィンドウのサポート、Multi-Token Prediction（MTP）メカニズムなどの主要な強化を行っています。

リンク: ドキュメンテーション | 論文 | ブログ記事

返却形式: {"translated": "翻訳されたHTML"}

EXAONE 4.5 の実装を追加（#45471）を @nuxlear が #45471 で行いました

PP-FormulaNet

PP-FormulaNet-L と PP-FormulaNet_plus-L は、テーブル構造認識向けの軽量モデルであり、ドキュメントや自然画像の中にあるテーブル構造を正確に認識することに重点を置いています。これらのモデルは SLANet シリーズの一部で、画像からテキストへのタスクで使用でき、具体的には画像から数学的な数式とテーブル構造を検出し処理する用途に対応しています。

リンク: ドキュメント

[モデル] PP-FormulaNet のモデルサポートを追加（#45626）を @zhang-prog が #45626 で行いました

互換性のない変更

Apex の統合はライブラリから削除されました（T5 と関連モデルにおける RMSNorm の利用も含む）。そのため、混合精度や fused ops に Apex を頼っているユーザーは、代わりに PyTorch のネイティブな同等機能へ移行してください。

Apex への参照の大部分を削除（#45723）を @Rocketknight1 が行いました

トークン化

DeepSeek R1 の蒸留（Qwen2）および DeepSeek OCR モデルについて、トークナイザのマッピング問題を修正し、PreTrainedTokenizer.convert_ids_to_tokens における大きなパフォーマンス低下も解決しました。skip_special_tokens=True の場合に、毎回のイテレーションで特殊トークン集合を作り直してしまっていたため、このコードパスで約 300 倍の高速化になりました。

qwen2 マッピングのための deepseek r1 蒸留トークナイザ修正（#45741）を @itazap が [#45741] で行いました
DeepSeek OCR は Hub 上で誤ったトークナイザクラスを指定しています（#45739）を @hmellor が [#45739] で行いました
PythonBackend のトークナイザ convert_ids_to_tokens が遅い問題の修正（#45728）を @i3hz が [#45728] で行いました

バグ修正および改善

修正: continuous_api の docstring におけるスペルの誤り（#45749）を @Dhruv908615 が [#45749]
モジュラー変換器のドキュメントへのリンクを修正（#45746）@SangbumChoi が [#45746]
Gemma4: 失敗したテストケースを修正（#45568）@kaixuanliu が [#45568]
CIを修正: CIでダウンロードできるアーティファクトをさらに増やす（#45785）@ydshieh が [#45785]
concurrency を PR CI ワークフローファイル（pr-ci-caller.yml）に追加（#45786）@ydshieh が [#45786]
autodoc と dataclass のデコレータ順を並べ替え（#45702）@zucchini-nlp が [#45702]
AutoModelFor*.from_config 内で text_config を展開（#45770）@jamesbraza が [#45770]
修正: float フォールバックのバックエンド一覧に Mps サポートを追加（#45687）@rigen1048 が [#45687]
Github Actions PR CI（呼び出し元）（#45476）を、@ydshieh が [#45476] の中で実施
CI で check_auto を呼び出すことを確認する（#45775）を、@tarekziade が [#45775] の中で実施
自動マッピングスクリプトを修正（#45774）を、@Cyrilvallez が [#45774] の中で実施
[MINISTRAL3] 変換スクリプトの yarn の apply_scale サポートを修正。（#45744）を、@juliendenize が [#45744] の中で実施
[nemotron_h] dt_bias および out_proj.weight に対する _no_reinit フラグを尊重する（#45591）を、@vai-minzhou が [#45591] の中で実施
修正（utils）：backbone utils のテスト回帰を解決する（#45594）を、@harshaljanjani が [#45594] の中で実施
[CB] 全体的にスクリプトを改善し、デコードのバケット分けを行う（#45653）を、@remi-or が [#45653] の中で実施
[docs] model testing (#45152) by @stevhliu in [#45152]
update dev (#45726) by @vasqu in [#45726]
Doc translate to Persian(farsi) (#45664) by @zeoses in [#45664]
[OAI Privacy Filter] Add integration test (#45725) by @vasqu in [#45725]
Speedup Qwen2VLImageProcessor (#45719) by @lgeiger in [#45719]
Remove dead beam-search dummies from dummy_pt_objects.py (#45722) by @jw9603 in [#45722]
chore(typing): add ty type checking for 10 utility files (#45703) by @moonbogi in [#45703]
Llama3 video fix（#45040） by @sywangyi in [#45040]
カスタムモジュールのコピーで読み取り専用権限を継承してしまう問題を修正（#45686） by @nurpax in [#45686]
モデルドキュメント内のPythonコード（#45608） by @zucchini-nlp in [#45608]
bltモデルの失敗したテストケースを修正（#45596） by @kaixuanliu in [#45596]
chore（typing）：3つのパイプラインファイルに対するty型チェックを追加（#45667） by @moonbogi in [#45667]

主なコミュニティへの貢献

以下の貢献者が、直近のリリースにおいてライブラリに重要な変更を加えました：

@artem-spector
- Granite 4.1 Vision（granite4_vision）を追加（#45597）
@SindhuRaghuram97
- 最初のモデル（#45788）
@nuxlear
- EXAONE 4.5 の実装を追加（#45471）
@ArthurZucker
- DeepSeek V4 を追加（#45643）
@remi-or
- [CB] 全体的なスクリプトとデコードのバケット分けを改善（#45653）
@zhang-prog
- [Model] PP-FormulaNet モデルのサポートを追加（#45626）
@zvik
- #45695）

Black Hat USA

AI Business

ぼやけた写真を瞬時にHDの傑作へ：AI画像アップスケーリング「ModifyX」

Dev.to

AIエージェント基盤のための新たな「6つのモート」—トラストスコア、デプロイ、SLA、アイデンティティ、コンプライアンス・コード化

Dev.to

Google HomeのGemini AIは、より複雑な依頼に対応できるように

The Verge

Exit Code 2：Claude Hooksでエージェント的ルールを実行時の障壁に変える方法

Dev.to

リリース5.8.0

要点

v5.8.0 リリース

新しいモデルの追加

DeepSeek-V4

Gemma 4 Assistant

GraniteSpeechPlus

Granite4Vision

EXAONE-4.5

PP-FormulaNet

互換性のない変更

トークン化

バグ修正および改善

主なコミュニティへの貢献

関連記事

Black Hat USA

ぼやけた写真を瞬時にHDの傑作へ：AI画像アップスケーリング「ModifyX」

AIエージェント基盤のための新たな「6つのモート」—トラストスコア、デプロイ、SLA、アイデンティティ、コンプライアンス・コード化

Google HomeのGemini AIは、より複雑な依頼に対応できるように

Exit Code 2：Claude Hooksでエージェント的ルールを実行時の障壁に変える方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer