v5.7.0のリリース

Transformers（HuggingFace）Releases / 2026/4/29

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

Poolsideのリリースv5.7.0では、SwiGLU MoEトランスフォーマを基にした混合専門家（MoE）言語モデルファミリー「Laguna」が追加されました。
Lagunaは、共有するKVキャッシュの形状を保ったまま、デコーダ層ごとに異なるクエリヘッド数を使える「層ごとのヘッド数」を導入しています。
また、補助損失なしのロードバランシングを行うシグモイドMoEルーターを採用し、ゲートのロジットに要素ごとのシグモイドを適用した値に、学習済みの専門家ごとのバイアスを加えてルーティングスコアを作ります。
併せて、Hugging Face TransformersのドキュメントにLagunaの説明が追加されており、Laguna XS.2の実装PR（#45673）へのリンクも掲載されています。

Release v5.7.0

新しいモデルの追加

Laguna

Lagunaは、Poolsideのミックスチャー・オブ・エキスパート（MoE）言語モデルファミリーで、標準的なSwiGLU MoEトランスフォーマーを拡張し、2つの重要な改良を備えています。具体的には、KVキャッシュの形状を共有したまま、異なるデコーダ層で異なるクエリヘッド数を可能にする、層ごとのヘッド数を特徴とします。さらに、ゲートのロジットに要素ごとのシグモイドを適用し、ルータースコアリング用に学習されたエキスパートごとのバイアスを加えることで、補助損失（auxiliary-loss）なしの負荷分散を実現するシグモイドMoEルータを実装しています。

リンク: ドキュメント

Laguna XS.2 の実装（#45673）@joerowell（#45673）

DEIMv2

DEIMv2（DETR with Improved Matching v2）は、リアルタイムの物体検出モデルで、DEIMを拡張し、DINOv3の特徴を取り込みます。モデルサイズはXからAttoまでの8種類があり、さまざまな導入シナリオに対応します。大きめのバリアントではSpatial Tuning Adapter（STA）を用いて、DINOv3の単一スケール出力を多スケール特徴へ変換します。一方で、超軽量モデルではpruned HGNetv2バックボーンを使用します。統一された設計により、性能とコストのより優れたトレードオフを実現しており、DEIMv2-Xはパラメータ5,030万個のみで57.8 APに到達し、またDEIMv2-SはCOCOで50 APを超える最初のサブ10Mモデルです。

リンク: ドキュメント | 論文

モデル: Transformers に DEIMv2 を追加（#44339）@harshaljanjani（#44339）

Attention

複数のモデルにわたって、注意機構（attention）に関するいくつかのバグを修正しました。具体的には、長い入力におけるT5Gemma2のクロスアテンションキャッシュのタイプエラー、Qwen3.5のgated-delta-net線形attentionにおけるキャッシュされたフォワードの不正な挙動、ならびにMamba層が存在しない場合のGraniteMoeHybridのクラッシュです。さらに、注意機構の関数ディスパッチも、最新のモデル実装に合わせるよう更新しました。

T5Gemma2の長い入力に対するクロスアテンション・キャッシュ層のタイプを修正（#45540） @Beichen-Ma による [#45540]
[Qwen3.5] GDNの線形アテンションのマルチトークン・キャッシュ済みフォワードを修正（#45513） @kashif による [#45513]
GraniteMoeHybridの_update_mamba_maskが、アテンションのみのモデルでクラッシュする問題を修正（#45514） @tianhaocui による [#45514]
最新モデルのアテンション関数ディスパッチを整合（#45598） @Cyrilvallez による [#45598]

Tokenizers

AutoTokenizerにバグがあり、誤ったトークナイザークラスが初期化されていました。これにより、DeepSeek R1のようなモデルで回帰が発生しました。

変更が元に戻された（#45680） @itazap による [#45680]

Generation

継続バッチングによる生成は、いくつかの修正と改善を受けました。KVの重複排除と、長いシーケンス（16K+）に対するメモリ推定の補正を含みます。また、num_return_sequencesや他のサポートされていない機能に関する誤解を招く警告を削除しました。これらは、機能が正しく動作している場合でも誤って発火していたためです。さらに、リクエストごとのサンプリングパラメータのドキュメントも追加されました。

generate: 継続バッチング・パスで古くなったnum_return_sequencesの警告を削除（#45582） @joaquinhuigomez による [#45582]

不要な generate warnings を削除します（#45619）を @Cyrilvallez が [#45619] で対応

[CB] 長い生成のための変更（#45530）を @remi-or が [#45530] で対応

[docs] リクエストごとのサンプリングパラメータ（#45553）を @stevhliu が [#45553] で対応

カーネル

FP8チェックポイント（例: Qwen3.5-35B-A3B-FP8）の設定読み取りとエラーハンドリングを修正することで、カーネルのサポートを改善しました。HF Hub から登録されたカスタムのエキスパートカーネルを適切に読み込めるようにし、Gemma3n と Gemma4 がローテータリー（rotary）カーネルを使用できなかった非互換性を解消しました。

カーネルの設定読み取りとエラーハンドリングを修正します（#45610）を @hmellor が [#45610] で対応
カーネルハブから登録されたエキスパートを許可します（#45577）を @winglian が [#45577] で対応
Gemma3n と Gemma4 はローテータリー（rotary）カーネルを使用できません（#45564）を @Cyrilvallez が [#45564] で対応

バグ修正と改善

さらに多くのタイプミスを修正します（#45689）を @vasqu が [#45689] で対応
[docs] cb メモリ管理（#45587）を @stevhliu が [#45587] 内で対応
[docs] cpu オフロード（#45660）を @stevhliu が [#45660] 内で対応
docs(README_zh-hans): Transformers を使用しない条件を明確化（#45688）を @GuaiZai233 が [#45688] 内で対応
fast_vlm テスト用にパディング側の問題を修正（#45592）を @kaixuanliu が [#45592] 内で対応
x_clip を修正: 失敗したテストケース 8 件（#45394）を @kaixuanliu が [#45394] 内で対応
zero_shot_object_detection の ValueError を python 3.13 向けに修正（#45669）を @AnkitAhlawat7742 が [#45669] 内で対応
Gated DeltaNet の PyTorch フォールバックにおける pageable H2D コピーを修正（#45665）を @ruixiang63 が [#45665] 内で対応
複製されたパラメータの shard_and_distribute_module で発生する UnboundLocalError を修正 (#45675) by @Abdennacer-Badaoui in [#45675]
[MistralCommonBackend] 検証モードと apply_chat_template 引数のチェックを緩和 (#45628) by @juliendenize in [#45628]
PreTrainedModel.__init_subclass__ により引き起こされる NameError: PeftConfigLike を修正 (#45658) by @qgallouedec in [#45658]
chore(typing): ty に modeling_utils を追加 (#45425) by @tarekziade in [#45425]
[gemma4] ハードコーディングではなく config から推論 (#45606) by @eustlb in [#45606]
quant のテストを更新 (#45480) by @SunMarc in [#45480]
修正: PreTrainedTokenizerFast の BPE トークナイザーに対して clean_up_tokenization をスキップする (#44915) by @maxsloef-goodfire in [#44915]
colmodernvbert テストを修正（#45652）を@Cyrilvallezが [#45652] で実施
[CB] [Major] CPU リクエストのオフロードを追加（#45184）を@remi-orが [#45184] で実施
peft のコンストラクタを修正（#45622）を@Cyrilvallezが [#45622] で実施
chore: モジュラーコンバータを高速化（約 30%）（#45046）を@tarekziadeが [#45046] で実施
whisper の返却言語を修正（#42227）を@FredHaaが [#42227] で実施
NemotronHPreTrainedModel に supports_gradient_checkpointing を追加（#45625）を@sergiopaniegoが [#45625] で実施
num_labels=1 と組み合わせた problem_type="single_label_classification" に対して明確なエラーを出す（#45611）を@gaurav0107が [#45611] で実施
torch 2.11 での CircleCI（#45633）を @ydshieh が [#45633]
chore: メインのドキュメントビルドワークフローの doc-builder SHA を更新（#45631）を @rtrompier が [#45631]
CI でダウンロードできるアーティファクトをさらに増やす（#45629）を @ydshieh が [#45629]
chore(qa): パイプラインを分割して型チェックを追加（#45432）を @tarekziade が [#45432]
失敗しているオフロードのテストをスキップ（#45624）を @Cyrilvallez が [#45624]
fix: D-FINE で denoising が無効のときに補助損失を計算する（#45601）を @Abineshabee が [#45601]
qa: mlinter を更新し、ローカルでの上書きを許可（#45585）を @tarekziade が [#45585]
Processing Utils: コンテンツが文字列の場合は処理を継続（#45605）を@RyanMullinsが[#45605]で実施
SonicMoe（#45433）を@IlyasMoutawwakilが[#45433]で実施
transformers + torchao の nvfp4 シリアライズを修正（#45573）を@vkuzoが[#45573]で実施
[AMD CI] Gemma3n の期待値を修正（#45602）を@Abdennacer-Badaouiが[#45602]で実施
[docs] マルチターンのツール呼び出し（#45554）を@stevhliuが[#45554]で実施
flash_attention_forward の s_aux=None に対する AttributeError を修正（#45589）を@jamesbrazaが[#45589]で実施
特殊トークンでデコードされた文字を越えてインデックスしない（#45435）を@itazapが[#45435]で実施
開発版を更新（#45583）を @vasqu が [#45583]
XPU および CPU 向けの torchao の使用方法を更新（#45560）を @jiqing-feng が [#45560]

重要なコミュニティ貢献

以下の貢献者は、直近のリリースでライブラリに大きな変更を加えました:

@vasqu
- さらに多くのタイポを修正（#45689）
- 開発版を更新（#45583）
@joerowell
- Laguna XS.2 の実装（#45673）
@tarekziade
- chore（typing）: ty に modeling_utils を追加（#45425）
- chore: モジュラー変換を高速化（約 30%）（#45046）
- chore（qa）: パイプラインを分割し、型チェックを追加（#45432）
- qa: mlinter を更新し、ローカルでの上書きを許可（#45585）
@harshaljanjani
- モデル: DEIMv2 を Transformers に追加（#44339）
@remi-or
- [CB] [Major] CPU リクエストのオフロードを追加（#45184）
- [CB] 長い生成への変更（#45530）

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/29Dailyインサイトを見る →

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

日経XTECH

BYDが最安EVにLiDAR、ファーウェイがレベル3攻勢北京ショー7選

日経XTECH

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

日経XTECH

v5.7.0のリリース

要点

Release v5.7.0

新しいモデルの追加

Laguna

DEIMv2

Attention

Tokenizers

Generation

カーネル

バグ修正と改善

重要なコミュニティ貢献

💡 この記事が使われたインサイト

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

BYDが最安EVにLiDAR、ファーウェイがレベル3攻勢北京ショー7選

光電融合、新プレーヤー・新技術が続々データセンター省電力化

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Release v5.7.0

新しいモデルの追加

Laguna

DEIMv2

Attention

Tokenizers

Generation

カーネル

バグ修正と改善

重要なコミュニティ貢献

💡 この記事が使われたインサイト

関連記事

特記仕様書に「生成AI活用」を明記、国土交通省が直轄業務で26年5月以降

BYDが最安EVにLiDAR、ファーウェイがレベル3攻勢 北京ショー7選

光電融合、新プレーヤー・新技術が続々 データセンター省電力化

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

富士通、独自CPUで狙うソブリンAI ラピダス味方にGPUと共存

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

BYDが最安EVにLiDAR、ファーウェイがレベル3攻勢北京ショー7選

光電融合、新プレーヤー・新技術が続々データセンター省電力化

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ