v5.7.0のリリース

Transformers(HuggingFace)Releases / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Poolsideのリリースv5.7.0では、SwiGLU MoEトランスフォーマを基にした混合専門家(MoE)言語モデルファミリー「Laguna」が追加されました。
  • Lagunaは、共有するKVキャッシュの形状を保ったまま、デコーダ層ごとに異なるクエリヘッド数を使える「層ごとのヘッド数」を導入しています。
  • また、補助損失なしのロードバランシングを行うシグモイドMoEルーターを採用し、ゲートのロジットに要素ごとのシグモイドを適用した値に、学習済みの専門家ごとのバイアスを加えてルーティングスコアを作ります。
  • 併せて、Hugging Face TransformersのドキュメントにLagunaの説明が追加されており、Laguna XS.2の実装PR(#45673)へのリンクも掲載されています。

Release v5.7.0

新しいモデルの追加

Laguna

image

Lagunaは、Poolsideのミックスチャー・オブ・エキスパート(MoE)言語モデルファミリーで、標準的なSwiGLU MoEトランスフォーマーを拡張し、2つの重要な改良を備えています。具体的には、KVキャッシュの形状を共有したまま、異なるデコーダ層で異なるクエリヘッド数を可能にする、層ごとのヘッド数を特徴とします。さらに、ゲートのロジットに要素ごとのシグモイドを適用し、ルータースコアリング用に学習されたエキスパートごとのバイアスを加えることで、補助損失(auxiliary-loss)なしの負荷分散を実現するシグモイドMoEルータを実装しています。

リンク: ドキュメント

DEIMv2

image

DEIMv2(DETR with Improved Matching v2)は、リアルタイムの物体検出モデルで、DEIMを拡張し、DINOv3の特徴を取り込みます。モデルサイズはXからAttoまでの8種類があり、さまざまな導入シナリオに対応します。大きめのバリアントではSpatial Tuning Adapter(STA)を用いて、DINOv3の単一スケール出力を多スケール特徴へ変換します。一方で、超軽量モデルではpruned HGNetv2バックボーンを使用します。統一された設計により、性能とコストのより優れたトレードオフを実現しており、DEIMv2-Xはパラメータ5,030万個のみで57.8 APに到達し、またDEIMv2-SはCOCOで50 APを超える最初のサブ10Mモデルです。

リンク: ドキュメント | 論文

Attention

複数のモデルにわたって、注意機構(attention)に関するいくつかのバグを修正しました。具体的には、長い入力におけるT5Gemma2のクロスアテンションキャッシュのタイプエラー、Qwen3.5のgated-delta-net線形attentionにおけるキャッシュされたフォワードの不正な挙動、ならびにMamba層が存在しない場合のGraniteMoeHybridのクラッシュです。さらに、注意機構の関数ディスパッチも、最新のモデル実装に合わせるよう更新しました。

  • T5Gemma2の長い入力に対するクロスアテンション・キャッシュ層のタイプを修正(#45540@Beichen-Ma による [#45540]
  • [Qwen3.5] GDNの線形アテンションのマルチトークン・キャッシュ済みフォワードを修正(#45513@kashif による [#45513]
  • GraniteMoeHybridの_update_mamba_maskが、アテンションのみのモデルでクラッシュする問題を修正(#45514@tianhaocui による [#45514]
  • 最新モデルのアテンション関数ディスパッチを整合(#45598@Cyrilvallez による [#45598]

Tokenizers

AutoTokenizerにバグがあり、誤ったトークナイザークラスが初期化されていました。これにより、DeepSeek R1のようなモデルで回帰が発生しました。

Generation

継続バッチングによる生成は、いくつかの修正と改善を受けました。KVの重複排除と、長いシーケンス(16K+)に対するメモリ推定の補正を含みます。また、num_return_sequencesや他のサポートされていない機能に関する誤解を招く警告を削除しました。これらは、機能が正しく動作している場合でも誤って発火していたためです。さらに、リクエストごとのサンプリングパラメータのドキュメントも追加されました。

  • generate: 継続バッチング・パスで古くなったnum_return_sequencesの警告を削除(#45582@joaquinhuigomez による [#45582]
  • 不要な generate warnings を削除します(#45619)を @Cyrilvallez が [#45619] で対応
  • [CB] 長い生成のための変更(#45530)を @remi-or が [#45530] で対応
  • [docs] リクエストごとのサンプリングパラメータ(#45553)を @stevhliu が [#45553] で対応
  • カーネル

    FP8チェックポイント(例: Qwen3.5-35B-A3B-FP8)の設定読み取りとエラーハンドリングを修正することで、カーネルのサポートを改善しました。HF Hub から登録されたカスタムのエキスパートカーネルを適切に読み込めるようにし、Gemma3n と Gemma4 がローテータリー(rotary)カーネルを使用できなかった非互換性を解消しました。

    • カーネルの設定読み取りとエラーハンドリングを修正します(#45610)を @hmellor が [#45610] で対応
    • カーネルハブから登録されたエキスパートを許可します(#45577)を @winglian が [#45577] で対応
    • Gemma3n と Gemma4 はローテータリー(rotary)カーネルを使用できません(#45564)を @Cyrilvallez が [#45564] で対応

    バグ修正と改善

    重要なコミュニティ貢献

    以下の貢献者は、直近のリリースでライブラリに大きな変更を加えました:

    • @vasqu
      • さらに多くのタイポを修正(#45689
      • 開発版を更新(#45583
    • @joerowell
      • Laguna XS.2 の実装(#45673
    • @tarekziade
      • chore(typing): ty に modeling_utils を追加(#45425
      • chore: モジュラー変換を高速化(約 30%)(#45046
      • chore(qa): パイプラインを分割し、型チェックを追加(#45432
      • qa: mlinter を更新し、ローカルでの上書きを許可(#45585
    • @harshaljanjani
      • モデル: DEIMv2 を Transformers に追加(#44339
    • @remi-or
      • [CB] [Major] CPU リクエストのオフロードを追加(#45184
      • [CB] 長い生成への変更(#45530