v5.8.0 リリース
新しいモデルの追加
DeepSeek-V4
DeepSeek-V4 は DeepSeek による次世代の MoE(Mixture of Experts:専門家混合)言語モデルで、DeepSeek-V3 に対していくつかのアーキテクチャ上の革新を導入しています。アーキテクチャは Multi-head Latent Attention(MLA)を、ハイブリッドなローカル+ロングレンジの注意(attention)設計に置き換えます。さらに、残差接続を Manifold-Constrained Hyper-Connections(mHC)に切り替え、最初の数段の MoE 層を静的な token-id → expert-id のハッシュテーブルでブートストラップします。この実装は DeepSeek-V4-Flash、DeepSeek-V4-Pro、およびそれらの -Base 事前学習バリアントをカバーしており、同じアーキテクチャを共有しつつ、幅(width)、深さ(depth)、専門家(expert)の数、重みが異なります。
- 最初のモデル追加: DeepSeek V4(#45643)を @ArthurZucker が #45643 で提供
Gemma 4 Assistant
Gemma 4 Assistant は小型でテキストのみのモデルで、Multi-Token Prediction(MTP)手法と関連する候補生成器を用いて、Gemma 4 モデルの推測デコード(speculative decoding)を可能にします。このモデルは他の Gemma 4 モデルと同じ Gemma4TextModel のバックボーンを共有していますが、モデル全体を通して KV シェアリングを使用します。これにより、対象モデルによってすでに埋められた KV キャッシュを再利用でき、プリフィル(pre-fill)段階を完全にスキップできます。このアーキテクチャにはクロスアテンションが含まれており、対象モデルのコンテキストを最大限に活用することで、アシスタントがドラフトラウンドごとにより多くのドラフトトークンを正確に予測できるようになります。
リンク: ドキュメント
- 最初のモデル(#45788)を @SindhuRaghuram97 が #45788 で提供
GraniteSpeechPlus
Granite Speech PlusはGranite Speechのバリアントであり、エンコーダの最終隠れ状態を、特徴次元に沿ってその中間隠れ状態の任意の部分集合と連結したものを消費することで、プロジェクタを強化します。これは、テキストプロンプトに応答することで音声を文字起こしし、話者注釈や単語レベルのタイムスタンプを提供できるマルチモーダルな音声対テキストモデルです。本モデルは、音声エンコーダ、クエリ変換器(query transformer)プロジェクタ、言語モデル、任意のLoRAアダプタなど、Granite Speechと同じアーキテクチャ構成要素を継承しています。
リンク: ドキュメンテーション
Granite4Vision
Granite Vision 4.1は、IBM Researchによるエンタープライズ向けドキュメントデータ抽出のために設計された、ビジョン-言語モデルです。グラフ/チャート抽出(Chart2CSV、Chart2Summary、Chart2Code)、テーブル抽出(JSON、HTML、OTSL)、意味的なキー-バリューペア抽出に特化しています。本モデルはLLaVA-NeXTをベースに、SigLIP2 Vision Encoder、Window Q-Former Projectors、DeepStack Feature Injection(8つのvision-to-LLMインジェクションポイント)を含むアーキテクチャ上の革新を取り入れています。
リンク: ドキュメンテーション
- @artem-spectorによる#45597でのGranite 4.1 Vision(granite4_vision)の追加(#45597)
EXAONE-4.5
EXAONE 4.5は、LG AI Researchによって開発された最初のオープンウェイトのビジョン言語モデルです。既存のEXAONE 4.0の枠組みに、専用のビジュアルエンコーダを統合することで、マルチモーダル能力を拡張しています。モデルのパラメータ総数は330億で、そのうち12億はビジョンエンコーダ由来です。一般的なベンチマークにおいて競争力のある性能を達成し、さらに文書理解や韓国語文脈推論において、同程度の規模のモデルよりも優れた性能を発揮します。EXAONE 4.0をベースに、153,600トークンへ拡張された語彙、最大256Kトークンのコンテキストウィンドウのサポート、Multi-Token Prediction(MTP)メカニズムなどの主要な強化を行っています。
リンク: ドキュメンテーション | 論文 | ブログ記事
返却形式: {"translated": "翻訳されたHTML"}PP-FormulaNet
PP-FormulaNet-L と PP-FormulaNet_plus-L は、テーブル構造認識向けの軽量モデルであり、ドキュメントや自然画像の中にあるテーブル構造を正確に認識することに重点を置いています。これらのモデルは SLANet シリーズの一部で、画像からテキストへのタスクで使用でき、具体的には画像から数学的な数式とテーブル構造を検出し処理する用途に対応しています。
リンク: ドキュメント
- [モデル] PP-FormulaNet のモデルサポートを追加(#45626)を @zhang-prog が #45626 で行いました
互換性のない変更
Apex の統合はライブラリから削除されました(T5 と関連モデルにおける RMSNorm の利用も含む)。そのため、混合精度や fused ops に Apex を頼っているユーザーは、代わりに PyTorch のネイティブな同等機能へ移行してください。
- Apex への参照の大部分を削除(#45723)を @Rocketknight1 が行いました
トークン化
DeepSeek R1 の蒸留(Qwen2)および DeepSeek OCR モデルについて、トークナイザのマッピング問題を修正し、PreTrainedTokenizer.convert_ids_to_tokens における大きなパフォーマンス低下も解決しました。skip_special_tokens=True の場合に、毎回のイテレーションで特殊トークン集合を作り直してしまっていたため、このコードパスで約 300 倍の高速化になりました。
- qwen2 マッピングのための deepseek r1 蒸留トークナイザ修正(#45741)を @itazap が [#45741] で行いました
- DeepSeek OCR は Hub 上で誤ったトークナイザクラスを指定しています(#45739)を @hmellor が [#45739] で行いました
- PythonBackend のトークナイザ convert_ids_to_tokens が遅い問題の修正(#45728)を @i3hz が [#45728] で行いました
バグ修正および改善
- 修正: continuous_api の docstring におけるスペルの誤り(#45749)を @Dhruv908615 が [#45749]
- モジュラー変換器のドキュメントへのリンクを修正(#45746)@SangbumChoi が [#45746]
- Gemma4: 失敗したテストケースを修正(#45568)@kaixuanliu が [#45568]
- CIを修正: CIでダウンロードできるアーティファクトをさらに増やす(#45785)@ydshieh が [#45785]
concurrencyをPR CIワークフローファイル(pr-ci-caller.yml)に追加(#45786)@ydshieh が [#45786]- autodoc と dataclass のデコレータ順を並べ替え(#45702)@zucchini-nlp が [#45702]
AutoModelFor*.from_config内でtext_configを展開(#45770)@jamesbraza が [#45770]- 修正: float フォールバックのバックエンド一覧に Mps サポートを追加(#45687)@rigen1048 が [#45687]
- Github Actions PR CI(呼び出し元)(#45476)を、@ydshieh が [#45476] の中で実施
- CI で check_auto を呼び出すことを確認する(#45775)を、@tarekziade が [#45775] の中で実施
- 自動マッピングスクリプトを修正(#45774)を、@Cyrilvallez が [#45774] の中で実施
- [MINISTRAL3] 変換スクリプトの yarn の apply_scale サポートを修正。(#45744)を、@juliendenize が [#45744] の中で実施
- [nemotron_h] dt_bias および out_proj.weight に対する _no_reinit フラグを尊重する(#45591)を、@vai-minzhou が [#45591] の中で実施
- 修正(utils):backbone utils のテスト回帰を解決する(#45594)を、@harshaljanjani が [#45594] の中で実施
- [CB] 全体的にスクリプトを改善し、デコードのバケット分けを行う(#45653)を、@remi-or が [#45653] の中で実施
- [docs] model testing (#45152) by @stevhliu in [#45152]
- update dev (#45726) by @vasqu in [#45726]
- Doc translate to Persian(farsi) (#45664) by @zeoses in [#45664]
- [
OAI Privacy Filter] Add integration test (#45725) by @vasqu in [#45725] - Speedup Qwen2VLImageProcessor (#45719) by @lgeiger in [#45719]
- Remove dead beam-search dummies from dummy_pt_objects.py (#45722) by @jw9603 in [#45722]
- chore(typing): add ty type checking for 10 utility files (#45703) by @moonbogi in [#45703]
- Llama3 video fix(#45040) by @sywangyi in [#45040]
- カスタムモジュールのコピーで読み取り専用権限を継承してしまう問題を修正(#45686) by @nurpax in [#45686]
- モデルドキュメント内のPythonコード(#45608) by @zucchini-nlp in [#45608]
- bltモデルの失敗したテストケースを修正(#45596) by @kaixuanliu in [#45596]
- chore(typing):3つのパイプラインファイルに対するty型チェックを追加(#45667) by @moonbogi in [#45667]
主なコミュニティへの貢献
以下の貢献者が、直近のリリースにおいてライブラリに重要な変更を加えました:
- @artem-spector
- Granite 4.1 Vision(granite4_vision)を追加(#45597)
- @SindhuRaghuram97
- 最初のモデル(#45788)
- @nuxlear
- EXAONE 4.5 の実装を追加(#45471)
- @ArthurZucker
- DeepSeek V4 を追加(#45643)
- @remi-or
- [CB] 全体的なスクリプトとデコードのバケット分けを改善(#45653)
- @zhang-prog
- [Model] PP-FormulaNet モデルのサポートを追加(#45626)
- @zvik
- #45695)




