Release v5.7.0
新しいモデルの追加
Laguna
Lagunaは、Poolsideのミックスチャー・オブ・エキスパート(MoE)言語モデルファミリーで、標準的なSwiGLU MoEトランスフォーマーを拡張し、2つの重要な改良を備えています。具体的には、KVキャッシュの形状を共有したまま、異なるデコーダ層で異なるクエリヘッド数を可能にする、層ごとのヘッド数を特徴とします。さらに、ゲートのロジットに要素ごとのシグモイドを適用し、ルータースコアリング用に学習されたエキスパートごとのバイアスを加えることで、補助損失(auxiliary-loss)なしの負荷分散を実現するシグモイドMoEルータを実装しています。
リンク: ドキュメント
- Laguna XS.2 の実装(#45673)@joerowell(#45673)
DEIMv2
DEIMv2(DETR with Improved Matching v2)は、リアルタイムの物体検出モデルで、DEIMを拡張し、DINOv3の特徴を取り込みます。モデルサイズはXからAttoまでの8種類があり、さまざまな導入シナリオに対応します。大きめのバリアントではSpatial Tuning Adapter(STA)を用いて、DINOv3の単一スケール出力を多スケール特徴へ変換します。一方で、超軽量モデルではpruned HGNetv2バックボーンを使用します。統一された設計により、性能とコストのより優れたトレードオフを実現しており、DEIMv2-Xはパラメータ5,030万個のみで57.8 APに到達し、またDEIMv2-SはCOCOで50 APを超える最初のサブ10Mモデルです。
- モデル: Transformers に DEIMv2 を追加(#44339)@harshaljanjani(#44339)
Attention
複数のモデルにわたって、注意機構(attention)に関するいくつかのバグを修正しました。具体的には、長い入力におけるT5Gemma2のクロスアテンションキャッシュのタイプエラー、Qwen3.5のgated-delta-net線形attentionにおけるキャッシュされたフォワードの不正な挙動、ならびにMamba層が存在しない場合のGraniteMoeHybridのクラッシュです。さらに、注意機構の関数ディスパッチも、最新のモデル実装に合わせるよう更新しました。
- T5Gemma2の長い入力に対するクロスアテンション・キャッシュ層のタイプを修正(#45540) @Beichen-Ma による [#45540]
- [Qwen3.5] GDNの線形アテンションのマルチトークン・キャッシュ済みフォワードを修正(#45513) @kashif による [#45513]
- GraniteMoeHybridの_update_mamba_maskが、アテンションのみのモデルでクラッシュする問題を修正(#45514) @tianhaocui による [#45514]
- 最新モデルのアテンション関数ディスパッチを整合(#45598) @Cyrilvallez による [#45598]
Tokenizers
AutoTokenizerにバグがあり、誤ったトークナイザークラスが初期化されていました。これにより、DeepSeek R1のようなモデルで回帰が発生しました。
Generation
継続バッチングによる生成は、いくつかの修正と改善を受けました。KVの重複排除と、長いシーケンス(16K+)に対するメモリ推定の補正を含みます。また、num_return_sequencesや他のサポートされていない機能に関する誤解を招く警告を削除しました。これらは、機能が正しく動作している場合でも誤って発火していたためです。さらに、リクエストごとのサンプリングパラメータのドキュメントも追加されました。
- generate: 継続バッチング・パスで古くなったnum_return_sequencesの警告を削除(#45582) @joaquinhuigomez による [#45582]
カーネル
FP8チェックポイント(例: Qwen3.5-35B-A3B-FP8)の設定読み取りとエラーハンドリングを修正することで、カーネルのサポートを改善しました。HF Hub から登録されたカスタムのエキスパートカーネルを適切に読み込めるようにし、Gemma3n と Gemma4 がローテータリー(rotary)カーネルを使用できなかった非互換性を解消しました。
- カーネルの設定読み取りとエラーハンドリングを修正します(#45610)を @hmellor が [#45610] で対応
- カーネルハブから登録されたエキスパートを許可します(#45577)を @winglian が [#45577] で対応
- Gemma3n と Gemma4 はローテータリー(rotary)カーネルを使用できません(#45564)を @Cyrilvallez が [#45564] で対応
バグ修正と改善
- さらに多くのタイプミスを修正します(#45689)を @vasqu が [#45689] で対応
- [docs] cb メモリ管理(#45587)を @stevhliu が [#45587] 内で対応
- [docs] cpu オフロード(#45660)を @stevhliu が [#45660] 内で対応
- docs(README_zh-hans): Transformers を使用しない条件を明確化(#45688)を @GuaiZai233 が [#45688] 内で対応
- fast_vlm テスト用にパディング側の問題を修正(#45592)を @kaixuanliu が [#45592] 内で対応
x_clipを修正: 失敗したテストケース 8 件(#45394)を @kaixuanliu が [#45394] 内で対応- zero_shot_object_detection の ValueError を python 3.13 向けに修正(#45669)を @AnkitAhlawat7742 が [#45669] 内で対応
- Gated DeltaNet の PyTorch フォールバックにおける pageable H2D コピーを修正(#45665)を @ruixiang63 が [#45665] 内で対応
- 複製されたパラメータの
shard_and_distribute_moduleで発生するUnboundLocalErrorを修正 (#45675) by @Abdennacer-Badaoui in [#45675] - [MistralCommonBackend] 検証モードと apply_chat_template 引数のチェックを緩和 (#45628) by @juliendenize in [#45628]
PreTrainedModel.__init_subclass__により引き起こされるNameError: PeftConfigLikeを修正 (#45658) by @qgallouedec in [#45658]- chore(typing): ty に modeling_utils を追加 (#45425) by @tarekziade in [#45425]
- [gemma4] ハードコーディングではなく config から推論 (#45606) by @eustlb in [#45606]
- quant のテストを更新 (#45480) by @SunMarc in [#45480]
- 修正:
PreTrainedTokenizerFastの BPE トークナイザーに対してclean_up_tokenizationをスキップする (#44915) by @maxsloef-goodfire in [#44915] - colmodernvbert テストを修正(#45652)を@Cyrilvallezが [#45652] で実施
- [CB] [Major] CPU リクエストのオフロードを追加(#45184)を@remi-orが [#45184] で実施
- peft のコンストラクタを修正(#45622)を@Cyrilvallezが [#45622] で実施
- chore: モジュラーコンバータを高速化(約 30%)(#45046)を@tarekziadeが [#45046] で実施
- whisper の返却言語を修正(#42227)を@FredHaaが [#42227] で実施
NemotronHPreTrainedModelにsupports_gradient_checkpointingを追加(#45625)を@sergiopaniegoが [#45625] で実施num_labels=1と組み合わせたproblem_type="single_label_classification"に対して明確なエラーを出す(#45611)を@gaurav0107が [#45611] で実施- torch 2.11 での CircleCI(#45633)を @ydshieh が [#45633]
- chore: メインのドキュメントビルドワークフローの doc-builder SHA を更新(#45631)を @rtrompier が [#45631]
- CI でダウンロードできるアーティファクトをさらに増やす(#45629)を @ydshieh が [#45629]
- chore(qa): パイプラインを分割して型チェックを追加(#45432)を @tarekziade が [#45432]
- 失敗しているオフロードのテストをスキップ(#45624)を @Cyrilvallez が [#45624]
- fix: D-FINE で denoising が無効のときに補助損失を計算する(#45601)を @Abineshabee が [#45601]
- qa: mlinter を更新し、ローカルでの上書きを許可(#45585)を @tarekziade が [#45585]
- Processing Utils: コンテンツが文字列の場合は処理を継続(#45605)を@RyanMullinsが[#45605]で実施
- SonicMoe(#45433)を@IlyasMoutawwakilが[#45433]で実施
- transformers + torchao の nvfp4 シリアライズを修正(#45573)を@vkuzoが[#45573]で実施
- [AMD CI] Gemma3n の期待値を修正(#45602)を@Abdennacer-Badaouiが[#45602]で実施
- [docs] マルチターンのツール呼び出し(#45554)を@stevhliuが[#45554]で実施
flash_attention_forwardのs_aux=Noneに対するAttributeErrorを修正(#45589)を@jamesbrazaが[#45589]で実施- 特殊トークンでデコードされた文字を越えてインデックスしない(#45435)を@itazapが[#45435]で実施
- 開発版を更新(#45583)を @vasqu が [#45583]
- XPU および CPU 向けの torchao の使用方法を更新(#45560)を @jiqing-feng が [#45560]
重要なコミュニティ貢献
以下の貢献者は、直近のリリースでライブラリに大きな変更を加えました:
- @vasqu
- @joerowell
- Laguna XS.2 の実装(#45673)
- @tarekziade
- @harshaljanjani
- モデル: DEIMv2 を Transformers に追加(#44339)
- @remi-or




