パッチリリース：v5.5.2

Transformers（HuggingFace）Releases / 2026/4/9

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

Hugging Face Transformers のパッチリリース v5.5.2 は、Gemma4 の推論パフォーマンスの最適化と信頼性向上に注力しています。
この更新により、`use_cache=False` を使用した際に発生する推論の問題が修正されます。原因は、層をまたいでキー/バリュー（KV）状態が共有されることによるものです。
モデルの重みの変換／シリアライズのマッピングを調整し、モデルが重み名を変換する際の不整合を防ぎます。VLM 向けの修正も含まれます。
リリースには複数の PR が含まれており、Gemma4 のテンソル並列（TP）計画への Mixture-of-Experts（MoE）の追加、KV 状態の共有とキャッシュの切り離し、共有重みを削除しつつ読み込み時にそれらをスキップする対応が行われています。

gemma4を最適化するための小さなパッチです。層間でk/v状態を共有しているためにuse_cache=Falseで推論が失敗していた問題を修正し、さらに一部のモデルで重み名のシリアライズが一貫しない問題に対する変換マッピングも含んでいます。以下のPRが含まれています：

TechCrunch

Reddit r/artificial

Dev.to

Dev.to

Dev.to