リリース v5.4.0:PaddlePaddle モデル「…」、Mistral 4、PI0、VidEoMT、UVDoc、SLANeXt、Jina Embeddings v3

Transformers(HuggingFace)Releases / 2026/3/27

📰 ニュースSignals & Early TrendsModels & Research

要点

  • PaddlePaddle v5.4.0 のリリースでは、新たな AI モデルの選択肢が追加されました。オンライン動画のセグメンテーション向けに、エンコーダのみの ViT アプローチに基づく VidEoMT などが含まれます。
  • VidEoMT は、専用のトラッキングモジュールを用いずにフレーム間で情報を引き継ぐための、軽量なクエリ伝搬メカニズムとクエリ融合戦略を導入します。
  • この記事では、VidEoMT が既存手法と比べて競争力のあるセグメンテーション精度を提供しつつ、ViT-L バックボーンで最大 160 FPS に達するなど大幅に高速であると主張しています。
  • さらに、このリリースでは Mistral 4、PI0、UVDoc、SLANeXt、Jina Embeddings v3 などの追加モデルにも言及されており、更新によって利用可能なモデルカタログが拡充されています。

新しいモデルの追加

VidEoMT

image

VidEoMT(Video Encoder-only Mask Transformer)は、プレーンなビジョントランスフォーマー(ViT)をベースにした、オンライン動画セグメンテーション向けの軽量なエンコーダのみモデルです。専用のトラッキングモジュールを不要にし、軽量なクエリ伝播メカニズムによってフレーム間で情報を運びつつ、伝播したクエリと時間非依存の学習済みクエリを組み合わせるクエリ融合戦略を採用します。VidEoMTは、ViT-Lバックボーンを用い、既存手法よりも5〜10倍高速で、最大160FPSを実現しながら、競争力のある精度を達成します。

リンク: ドキュメント | 論文

UVDoc

image

UVDocは、文書画像の整流(rectification)と補正のために設計された機械学習モデルです。このモデルの主な目的は、文書画像の幾何学的変換を行い、文書の歪み、傾き、視点(パース)による変形などの問題を補正することです。歪んだ文書画像を処理するために、単一入力とバッチ推論の両方に対応しています。

リンク: ドキュメント

Jina Embeddings v3

image

Jina-Embeddings-v3 は、多言語・多タスクのテキスト埋め込みモデルで、さまざまなNLPアプリケーション向けに設計されています。XLM-RoBERTa アーキテクチャに基づき、このモデルは絶対位置埋め込みを置き換える Rotary Position Embeddings(RoPE)をサポートし、8192トークンまでの長い入力シーケンスに対応します。さらに、5つの組み込みタスク固有 LoRA アダプタを備えており、推論遅延を大きく増やすことなく(例:検索と分類など)タスク固有の埋め込みを生成できます。

Links: ドキュメント | 論文

Mistral4

image

Mistral 4 は、汎用の命令モデルとしても推論モデルとしても振る舞うことができる強力なハイブリッドモデルです。Instruct、Reasoning(以前は Magistral と呼ばれていました)、Devstral という3つの異なるモデルファミリーの能力を、1つの統一モデルに統合しています。このモデルは MoE(Mixture of Experts)アーキテクチャを備えており、128のエキスパートと、4つがアクティブ(1トークンあたり6.5Bが有効)で、パラメータ総数は119Bです。文脈長は256kで、多モーダル入力をサポートし、テキストと画像の両方を処理する能力を備えています。

Links: ドキュメント

PI0

PI0 は、ロボットのマニピュレーションのためのビジョン-言語-アクションモデルであり、視覚的な観測と言語指示を同時に処理して、ロボットのアクションを生成します。これは、インターネット規模のセマンティック知識を継承するために、事前学習済みのビジョン-言語モデルの上に構築された新しいフローマッチング(flow matching)アーキテクチャを使用しています。このモデルは、シングルアームロボット、デュアルアームロボット、モバイルマニピュレータを含む複数のロボットプラットフォームにわたって、洗濯物の畳み、テーブル清掃、箱の組み立てといった複雑で器用な作業を実行できます。

Links: ドキュメント | 論文

SLANeXt

SLANeXt は、テーブル構造認識のための専用の軽量モデル群で、ドキュメントおよび自然シーンにおけるテーブル構造を正確に認識することに焦点を当てています。SLANeXt シリーズは、Baidu PaddlePaddle Vision チームによって独自に開発されたテーブル構造認識モデルの新世代で、有線テーブルと無線テーブルそれぞれに対して別々に学習された専用重みを備えています。あらゆる種類のテーブルに対する認識能力は大幅に向上しており、特に有線テーブルで顕著です。

リンク: ドキュメント

PP-OCRv5_mobile_rec

PP-OCRv5_mobile_rec は、テキスト認識のための専用の軽量モデルで、多言語ドキュメントおよび自然シーンにおけるテキスト要素の効率的な認識と理解に特化しています。単一のモデルで、簡体字中国語、繁体字中国語、英語、日本語の認識に加え、手書き、縦書き、ピンイン、まれな文字といった複雑なテキストシナリオにも、効率的かつ正確に対応できるよう設計されています。認識性能を維持しつつ、推論速度とモデルの堅牢性のバランスも取り、さまざまなシナリオにおけるドキュメント理解のための効率的かつ正確な技術サポートを提供します。

リンク: ドキュメント

  • [モデル] PP-OCRv5_server_rec および PP-OCRv5_mobile_rec モデルのサポートを追加 (#44808)。@zhang-prog#44808 で実施

PP-OCRv5_server_rec

PP-OCRv5_server_rec は、テキスト認識のための専用の軽量モデルで、多言語ドキュメントおよび自然シーンにおけるテキスト要素の効率的な認識と理解に特化しています。単一のモデルで、簡体字中国語、繁体字中国語、英語、日本語の認識に加え、手書き、縦書き、ピンイン、まれな文字といった複雑なテキストシナリオにも、効率的かつ正確に対応できるよう設計されています。認識性能を維持しつつ、推論速度とモデルの堅牢性のバランスも取り、さまざまなシナリオにおけるドキュメント理解のための効率的かつ正確な技術サポートを提供します。

リンク: ドキュメント

  • [モデル] PP-OCRv5_server_rec および PP-OCRv5_mobile_rec モデルのサポートを追加 (#44808)。@zhang-prog#44808 で実施

PP-OCRv5_mobile_det

PP-OCRv5_mobile_det は、テキスト検出のための専用の軽量モデルで、多言語ドキュメントおよび自然シーンにおけるテキスト要素の効率的な検出と理解に特化しています。これは PaddleOCR チームによって開発された最新世代のテキスト検出モデルの一部で、簡体字中国語、繁体字中国語、英語、日本語といった複数の言語にわたって、手書き、縦書き、回転、曲線状のテキストなど多様なシナリオにおけるテキストの検出を、効率的かつ正確にサポートします。このモデルは、複雑なレイアウトの扱い、さまざまな文字サイズ、難しい背景への対応力を備えており、ドキュメント解析、ナンバープレート認識、シーンテキスト検出といった実用的なアプリケーションに適しています。

リンク: ドキュメント

PPLCNet

PP-LCNetは、実世界の文書理解およびOCRタスクのために設計された、効率的で軽量な畳み込みニューラルネットワークのファミリーです。精度、速度、モデルサイズのバランスを取り、サーバー側とエッジ側の両方への展開に最適です。このモデルには、特定のタスク向けに最適化された3つの主なバリアントがあります。すなわち、文書画像の方位分類、表の分類、テキスト行の方位分類です。

Links: Documentation

PPLCNetV3

PPLCNetV3は、効率的な画像分類および下流のビジョンタスクのために最適化された、軽量なCPU向け畳み込みバックボーンです。CPUハードウェア上でより良い精度とレイテンシのトレードオフを実現するために、改善された学習戦略と構造的な改良を用いてPP-LCNetアーキテクチャを発展させています。

Links: Documentation | Paper

PP-OCRv5_server_det

PP-OCRv5_server_detは、サーバー側アプリケーション向けに最適化された高性能のテキスト検出モデルであり、文書および自然シーン内の多言語テキストを正確に検出することに重点を置いています。これは、簡体字中国語、繁体字中国語、英語、日本語といった複数の言語において、手書き、縦書き、回転、曲線状のテキストなど、多様な状況でのテキスト検出をサポートします。このモデルは、複雑なレイアウト、さまざまなテキストサイズ、困難な背景を頑健に扱う機能を備えており、文書分析、ナンバープレート認識、シーンテキスト検出といった実用的な用途に適しています。

Links: Documentation

CHMv2

CHMv2は、DINOv3を使用して高解像度の光学衛星画像から森林の樹冠高を推定する、地球規模のメートル解像度のキャノピー高マッピングモデルです。2024年に公開された元のキャノピー高マップを基に、Metaの自己教師ありビジョンモデルを活用することで、精度、詳細、そして世界的な一貫性が大幅に向上したCHMv2を提供します。このモデルは航空レーザースキャンデータに対して学習されており、森林の炭素量を定量化すること、修復および劣化のモニタリング、そして生息地の構造の評価に不可欠な情報を提供します。

Links: Documentation | Paper | Blog Post

重大な変更点

二重のBaseImageProcessor/BaseImageProcessorFastの設計は、統一されたバックエンドアーキテクチャに置き換えられ、image_processing_utils_fastモジュールは削除されました — ユーザーは新しい統一されたimage_processing_utilsモジュールへ移行する必要があります。

  • 別のバックエンドをサポートするために画像プロセッサをリファクタリング (#43514) を @yonigozlan

PreTrainedConfigおよびモデル設定クラスは、@dataclassを使用するようリファクタリングされ、位置引数を受け取らなくなりました — ユーザーは、設定のインスタンス化呼び出しをキーワード引数のみを使うように更新する必要があります。

Flash Attention 2 (FA2) のサポートには、現在バージョン 2.3.3 以降が必要になり、Flash Attention 4 (FA4) の初期サポートが追加されました。古い FA2 バージョンのユーザーは、少なくとも 2.3.3 へアップグレードする必要があります。

重みのタイ(weight tying)の挙動が変更され、チェックポイント内に両方のキーがすでに存在している場合でも、重みは今後タイされます。従来の挙動(例:重複キーを含む .bin チェックポイント)に依存しているユーザーは、モデルが期待どおりに読み込まれることを確認してください。

  • [tie weights] 同じ重みが両方の重みとして存在する場合でも、それらを引き続きタイする(#44497) :@Cyrilvallez

cache_position 引数は、主要なモデルのほとんどの forward シグネチャから削除されました。これらのモデルに cache_position を直接渡しているユーザーは、それを削除してください。現在は generate が内部で処理するようになっています。

  • [core] キャッシュ位置(cache positions)を完全に削除する(#44181) :@Cyrilvallez

Parallelization

パイプライン並列 (PP) およびテンソル並列 (TP) のサポートに対して、いくつかの不具合修正と改善が行われました。これには、supports_tp/pp_plan の検出の修正、Qwen2VL ベースのモデルにおける PP での属性エラーの解消、meta デバイスでの FSDP 読み込みの修正、そして TP の重みシャーディングが親モジュールの属性(例:in_features/out_features)を適切に更新し、PEFT のようなライブラリとの互換性を高めることの確認が含まれます。

  • supports_{tp/pp}_plan を修正(#44696@hmellor により [#44696]
  • TP に対する stdout の非表示を無効化できるようにする(#44608@michaelbenayoun により [#44608]
  • メタデバイスでの FSDP ローディングを修正(#44473@winglian により [#44473]
  • 修正:trainer_seq2seq.pytorch.distributed.fsdp を条件付きでインポート(#44507@0xDELUXA により [#44507]
  • CPU のみの tp テストにおける XPU のスキップロジックを補完(#44536@YangKai0616 により [#44536]
  • TP でシャーディングする際に親モジュールの属性を更新(#44421@michaelbenayoun により [#44421]
  • CI でテンソル並列ユーティリティのテストをトリガーする(#44460@3outeille により [#44460]
  • Quantization

    量子化のサポートは、最大 30 倍高速な FP8 の grouped および batched matmul、マルチ GPU セットアップ向けの静的 FP8 expert サポート、そして torchao の最小バージョンの 0.15.0 への引き上げによって改善されました。さらに、MXFP4 の依存関係エラーメッセージがより実用的になるように調整され、AWQ テストは GPTQModel の移行に合わせて更新されました。

    トークナイズ

    トークナイザーの読み込みと保存に対して、重複したファイル解析や、大きなボキャブラリに対する不要な深いコピーを排除するなど、いくつかのパフォーマンス改善が行われました。これらは大きなオーバーヘッドの原因になっていました。さらに、Hub上での不正なトークナイザークラス名(DeepSeek V2/V3、ModernBERT)、Llama 3トークナイザー変換におけるclean_up_tokenization_spacesの誤設定、AutoTokenizerクラス名解決における文字列置換の問題について、バグ修正が適用されました。

    • fix: 重複したトークナイザのパースを避けることで、プロセッサの読み込みパフォーマンスを改善(#44927)。@ydshieh#44927 の中で対応
    • fix processing_utils.py: パフォーマンスを改善するために、ProcessorMixin でトークナイザの deepcopy を行わないようにする(#44894)。@ydshieh#44894 の中で対応
    • fix: Llama 3 のトークナイザ変換で clean_up_tokenization_spaces=False を設定(#44914)。@maxsloef-goodfire#44914 の中で対応
    • hub 上で不正なトークナイザクラスになってしまう問題の修正(deepseek_v2、deepseek_v3、modernbert)(#44801)。@itazap#44801 の中で対応
    • vibe voice の音響トークナイザテストに対する XPU の期待値を追加(#44428)。@kaixuanliu#44428 の中で対応
    • fix(tokenizer): AutoTokenizer でクラス名がサフィックスとして使われる場合のみ Fast をクラス名から取り除く(#44443)。@harshaljanjani#44443 の中で対応

    キーネル

    カーネルサポートは拡張され、Flash Attention 4 のフォールバック統合、継続的バッチ処理用の paged_attention カーネル、さらにカスタムカーネル向けの Neuron デバイスサポートが追加されました。クラッシュを防ぐためにカーネルのバージョン依存関係を更新し、LFM2 カーネルのパスを修正するなど、いくつかの安定性修正も行われました。

    キャッシュ

    キャッシュに関連するいくつかの修正と改善が行われました。具体的には、LFM2 のキャッシュ実装を他の Mamba のキャッシュに合わせること、transformers serve のストリーミングエンドポイントにおける KV キャッシュ継続でのテンソルインデックス参照のクラッシュを修正すること、そして use_cache=False を使用した場合の Idefics3 の生成バグを解決することです。さらに、変更されていない有効なファイルをスキップしてビルドのパフォーマンスを向上させるために、モデルリンタにキャッシングレイヤーも追加されました。

    • lfm2 のキャッシュを他の mamba のキャッシュに揃える(#44866)。@Cyrilvallez が [#44866] で行いました。
    • 機能: モデルリンタにキャッシュを追加(#44790)。@tarekziade が [#44790] で行いました。
  • serve の generate_response KV キャッシュ継続時におけるテンソル・インデックス参照のクラッシュを修正(#44735@mango766 により [#44735]
  • キャッシュなしの Idefics3 修正なし(#44607@gabe-l-hart により [#44607]
  • Vision

    Fast Image Processors のフルパス import に対する後方互換性を修正し、freqs_ci がバッファとして登録されていなかったために、device_map="auto" でモデルを読み込む際に失敗していた Llama4 のビジョン rotary embedding の初期化エラーを解決しました。

    • Fast Image Processors のフルパス import に対する後方互換性を修正(#44926@yonigozlan により [#44926]
    • 修正(models, testing): Llama4 のビジョン rotary meta テンソルの初期化と、MyT5 の get_tokenizer シグネチャを修正(#44581@harshaljanjani により [#44581]
    • Flash Attention のコミットを固定(pinning)することで、AMD Docker イメージのビルド・タイムアウトを修正(#44546@Abdennacer-Badaoui により [#44546]

    Generation

    cache_position 引数は生成パイプラインから完全に削除されました。これは、すべてのモデルがそれを使用しないように更新されたためです(リモートコードのモデルについては、後方互換性のための経路を保持しています)。さらに、chunked decoding を伴う LASR の統合テストを追加し、廃止されたパイプラインタスクへの古い参照を整理しました。

    • [generate] 生成においてもう cache_position を決して使用しないでください(#44816@Cyrilvallez により [#44816]
    • パイプとチャンク化されたデコードを使用したLASRの統合テストを追加 (#42823):@kho による [#42823]
    • 修正:text2text-generationsummarizationtranslation のパイプラインタスクへの参照を削除 (#44510):@math-hiyoko による [#44510]

    バグ修正と改善

    • 動的な重み変換は再帰的 (#44300):@zucchini-nlp による [#44300]
    • テストが見つからない場合は tests_hub を実行しない (#45014):@ydshieh による [#45014]
    • Llama4TextConfig における attention_chunk_size の型ヒントを修正 (#45002):@hmellor による [#45002]
    • AutoProcessor.from_pretrained が hub の kwargs を静かにドロップしてしまう問題を修正 (#44710):@he-yufeng による [#44710]
    • maybe_autocast が meta デバイスのテンソルでクラッシュする問題を修正 (#44984):@Butanium による [#44984]
    • fix: Python 3.13 互換性のため、@torch.jit.script と def の間にあるコメント内の Copied を削除 (#44986) @Krishnachaitanyakc による [#44986]
    • vllm の小さな修正をいくつか (#44990) @ArthurZucker による [#44990]
    • fix(models): Perceiver の interpolate_pos_encoding がソースサイズに対して補間する問題を修正 (#44899) @harshaljanjani による [#44899]
    • mm_token_type がパディングされないリストでも許可する (#44563) @zucchini-nlp による [#44563]
    • 同等のフォールバックを使用して CPU の 16 バイトアラインメント問題を修正 (#44970) @IlyasMoutawwakil による [#44970]
    • refactor: QA の呼び出しを統一 (#44879) @tarekziade による [#44879]
    • Qwen2VL の tie_word_embedding の問題を修正 (#44976) @hmellor による [#44976]
    • check_auto_docstrings においてモジュラ(!!)+ 設定(Configs)をサポート (#44803) を @yonigozlan が [#44803](#44803) で提案
    • [ vllm x v5] nit((#44971) を @ArthurZucker が [#44971](#44971) で提案
    • LwDetrImageLoss: cuda デバイスで amp を使用した際にクラッシュしないよう dtype キャストを修正する (#44886) を @m-matthias が [#44886](#44886) で提案
    • [AMD CI] Gemma3/Gemma3n の期待事項(#44972)を @Abdennacer-Badaoui が [#44972](#44972) で提案
    • parse_response を正式に起動する(#44674)を @Rocketknight1 が [#44674](#44674) で提案
    • load_best_model_checkpoint_at_end を修正: 最良のモデルのチェック… を読み込まない(#44583)を @wilnn が [#44583](#44583) で提案
    • T5ModelIntegrationTest が失敗する問題を修正(#44934)を @Sai-Suraj-27 が [#44934](#44934) で提案
    • 設定 kwargs(#44953)を @zucchini-nlp が [#44953] 内で対応
    • [CB] [Minor] テストスイートを簡素化する(#44858)を @remi-or が [#44858] 内で対応
    • プロセッサで任意のテンプレート kwargs を許可する(#44881)を @zucchini-nlp が [#44881] 内で対応
    • DebertaV2Tokenizer の post_processor が欠落していて特殊ト…(#44570)を