gemma4を最適化するための小さなパッチです。層間でk/v状態を共有しているためにuse_cache=Falseで推論が失敗していた問題を修正し、さらに一部のモデルで重み名のシリアライズが一貫しない問題に対する変換マッピングも含んでいます。以下のPRが含まれています:
- MoEをGemma4のTP計画に追加 (#45219) by @sywangyi and @Cyrilvallez
- [gemma4] キャッシュからkv状態の共有を切り離す (#45312) by @Cyrilvallez
- [gemma4] 共有されている重みをすべて削除し、読み込み時にそれらを黙ってスキップする (#45336) by @Cyrilvallez
- vlmsの変換マッピングを修正 (#45340) by @Cyrilvallez



