新しいモデルの追加
VidEoMT
VidEoMT(Video Encoder-only Mask Transformer)は、プレーンなビジョントランスフォーマー(ViT)をベースにした、オンライン動画セグメンテーション向けの軽量なエンコーダのみモデルです。専用のトラッキングモジュールを不要にし、軽量なクエリ伝播メカニズムによってフレーム間で情報を運びつつ、伝播したクエリと時間非依存の学習済みクエリを組み合わせるクエリ融合戦略を採用します。VidEoMTは、ViT-Lバックボーンを用い、既存手法よりも5〜10倍高速で、最大160FPSを実現しながら、競争力のある精度を達成します。
- VidEoMTを追加(#44285)を@NielsRoggeが#44285で実施
UVDoc
UVDocは、文書画像の整流(rectification)と補正のために設計された機械学習モデルです。このモデルの主な目的は、文書画像の幾何学的変換を行い、文書の歪み、傾き、視点(パース)による変形などの問題を補正することです。歪んだ文書画像を処理するために、単一入力とバッチ推論の両方に対応しています。
リンク: ドキュメント
- [モデル] UVDocモデルのサポートを追加(#43385)を@XingweiDengが#43385で実施
Jina Embeddings v3
Jina-Embeddings-v3 は、多言語・多タスクのテキスト埋め込みモデルで、さまざまなNLPアプリケーション向けに設計されています。XLM-RoBERTa アーキテクチャに基づき、このモデルは絶対位置埋め込みを置き換える Rotary Position Embeddings(RoPE)をサポートし、8192トークンまでの長い入力シーケンスに対応します。さらに、5つの組み込みタスク固有 LoRA アダプタを備えており、推論遅延を大きく増やすことなく(例:検索と分類など)タスク固有の埋め込みを生成できます。
Jina-Embeddings-V3モデル(#44251)を @Sai-Suraj-27 が #44251 で追加
Mistral4
Mistral 4 は、汎用の命令モデルとしても推論モデルとしても振る舞うことができる強力なハイブリッドモデルです。Instruct、Reasoning(以前は Magistral と呼ばれていました)、Devstral という3つの異なるモデルファミリーの能力を、1つの統一モデルに統合しています。このモデルは MoE(Mixture of Experts)アーキテクチャを備えており、128のエキスパートと、4つがアクティブ(1トークンあたり6.5Bが有効)で、パラメータ総数は119Bです。文脈長は256kで、多モーダル入力をサポートし、テキストと画像の両方を処理する能力を備えています。
Links: ドキュメント
- Mistral 4(#44760)を @juliendenize が #44760 で追加
PI0
PI0 は、ロボットのマニピュレーションのためのビジョン-言語-アクションモデルであり、視覚的な観測と言語指示を同時に処理して、ロボットのアクションを生成します。これは、インターネット規模のセマンティック知識を継承するために、事前学習済みのビジョン-言語モデルの上に構築された新しいフローマッチング(flow matching)アーキテクチャを使用しています。このモデルは、シングルアームロボット、デュアルアームロボット、モバイルマニピュレータを含む複数のロボットプラットフォームにわたって、洗濯物の畳み、テーブル清掃、箱の組み立てといった複雑で器用な作業を実行できます。
SLANeXt
SLANeXt は、テーブル構造認識のための専用の軽量モデル群で、ドキュメントおよび自然シーンにおけるテーブル構造を正確に認識することに焦点を当てています。SLANeXt シリーズは、Baidu PaddlePaddle Vision チームによって独自に開発されたテーブル構造認識モデルの新世代で、有線テーブルと無線テーブルそれぞれに対して別々に学習された専用重みを備えています。あらゆる種類のテーブルに対する認識能力は大幅に向上しており、特に有線テーブルで顕著です。
リンク: ドキュメント
- [モデル] SLANeXt モデルのサポートを追加 (#43707)。@liu-jiaxuan が #43707 で実施
PP-OCRv5_mobile_rec
PP-OCRv5_mobile_rec は、テキスト認識のための専用の軽量モデルで、多言語ドキュメントおよび自然シーンにおけるテキスト要素の効率的な認識と理解に特化しています。単一のモデルで、簡体字中国語、繁体字中国語、英語、日本語の認識に加え、手書き、縦書き、ピンイン、まれな文字といった複雑なテキストシナリオにも、効率的かつ正確に対応できるよう設計されています。認識性能を維持しつつ、推論速度とモデルの堅牢性のバランスも取り、さまざまなシナリオにおけるドキュメント理解のための効率的かつ正確な技術サポートを提供します。
リンク: ドキュメント
- [モデル] PP-OCRv5_server_rec および PP-OCRv5_mobile_rec モデルのサポートを追加 (#44808)。@zhang-prog が #44808 で実施
PP-OCRv5_server_rec
PP-OCRv5_server_rec は、テキスト認識のための専用の軽量モデルで、多言語ドキュメントおよび自然シーンにおけるテキスト要素の効率的な認識と理解に特化しています。単一のモデルで、簡体字中国語、繁体字中国語、英語、日本語の認識に加え、手書き、縦書き、ピンイン、まれな文字といった複雑なテキストシナリオにも、効率的かつ正確に対応できるよう設計されています。認識性能を維持しつつ、推論速度とモデルの堅牢性のバランスも取り、さまざまなシナリオにおけるドキュメント理解のための効率的かつ正確な技術サポートを提供します。
リンク: ドキュメント
- [モデル] PP-OCRv5_server_rec および PP-OCRv5_mobile_rec モデルのサポートを追加 (#44808)。@zhang-prog が #44808 で実施
PP-OCRv5_mobile_det
PP-OCRv5_mobile_det は、テキスト検出のための専用の軽量モデルで、多言語ドキュメントおよび自然シーンにおけるテキスト要素の効率的な検出と理解に特化しています。これは PaddleOCR チームによって開発された最新世代のテキスト検出モデルの一部で、簡体字中国語、繁体字中国語、英語、日本語といった複数の言語にわたって、手書き、縦書き、回転、曲線状のテキストなど多様なシナリオにおけるテキストの検出を、効率的かつ正確にサポートします。このモデルは、複雑なレイアウトの扱い、さまざまな文字サイズ、難しい背景への対応力を備えており、ドキュメント解析、ナンバープレート認識、シーンテキスト検出といった実用的なアプリケーションに適しています。
リンク: ドキュメント
- [モデル] PP-OCRV5_mobile_det モデルのサポートを追加 (#43247)。@XingweiDeng が #43247 で実施
PPLCNet
PP-LCNetは、実世界の文書理解およびOCRタスクのために設計された、効率的で軽量な畳み込みニューラルネットワークのファミリーです。精度、速度、モデルサイズのバランスを取り、サーバー側とエッジ側の両方への展開に最適です。このモデルには、特定のタスク向けに最適化された3つの主なバリアントがあります。すなわち、文書画像の方位分類、表の分類、テキスト行の方位分類です。
Links: Documentation
- [Model] PP-OCRV5_mobile_det モデル対応の追加 (#43247) を @XingweiDeng が #43247 で実施
PPLCNetV3
PPLCNetV3は、効率的な画像分類および下流のビジョンタスクのために最適化された、軽量なCPU向け畳み込みバックボーンです。CPUハードウェア上でより良い精度とレイテンシのトレードオフを実現するために、改善された学習戦略と構造的な改良を用いてPP-LCNetアーキテクチャを発展させています。
Links: Documentation | Paper
- [Model] PP-OCRV5_mobile_det モデル対応の追加 (#43247) を @XingweiDeng が #43247 で実施
PP-OCRv5_server_det
PP-OCRv5_server_detは、サーバー側アプリケーション向けに最適化された高性能のテキスト検出モデルであり、文書および自然シーン内の多言語テキストを正確に検出することに重点を置いています。これは、簡体字中国語、繁体字中国語、英語、日本語といった複数の言語において、手書き、縦書き、回転、曲線状のテキストなど、多様な状況でのテキスト検出をサポートします。このモデルは、複雑なレイアウト、さまざまなテキストサイズ、困難な背景を頑健に扱う機能を備えており、文書分析、ナンバープレート認識、シーンテキスト検出といった実用的な用途に適しています。
Links: Documentation
- [Model] PP-OCRV5_server_det モデル対応の追加 (#43274) を @XingweiDeng が #43274 で実施
CHMv2
CHMv2は、DINOv3を使用して高解像度の光学衛星画像から森林の樹冠高を推定する、地球規模のメートル解像度のキャノピー高マッピングモデルです。2024年に公開された元のキャノピー高マップを基に、Metaの自己教師ありビジョンモデルを活用することで、精度、詳細、そして世界的な一貫性が大幅に向上したCHMv2を提供します。このモデルは航空レーザースキャンデータに対して学習されており、森林の炭素量を定量化すること、修復および劣化のモニタリング、そして生息地の構造の評価に不可欠な情報を提供します。
Links: Documentation | Paper | Blog Post
- CHMv2の追加 (#44595) を @yonigozlan が #44595 で実施
重大な変更点
二重のBaseImageProcessor/BaseImageProcessorFastの設計は、統一されたバックエンドアーキテクチャに置き換えられ、image_processing_utils_fastモジュールは削除されました — ユーザーは新しい統一されたimage_processing_utilsモジュールへ移行する必要があります。
- 別のバックエンドをサポートするために画像プロセッサをリファクタリング (#43514) を @yonigozlan
PreTrainedConfigおよびモデル設定クラスは、@dataclassを使用するようリファクタリングされ、位置引数を受け取らなくなりました — ユーザーは、設定のインスタンス化呼び出しをキーワード引数のみを使うように更新する必要があります。
- 設定属性を検証する (#41250) :@zucchini-nlp
Flash Attention 2 (FA2) のサポートには、現在バージョン 2.3.3 以降が必要になり、Flash Attention 4 (FA4) の初期サポートが追加されました。古い FA2 バージョンのユーザーは、少なくとも 2.3.3 へアップグレードする必要があります。
重みのタイ(weight tying)の挙動が変更され、チェックポイント内に両方のキーがすでに存在している場合でも、重みは今後タイされます。従来の挙動(例:重複キーを含む .bin チェックポイント)に依存しているユーザーは、モデルが期待どおりに読み込まれることを確認してください。
- [tie weights] 同じ重みが両方の重みとして存在する場合でも、それらを引き続きタイする(#44497) :@Cyrilvallez
cache_position 引数は、主要なモデルのほとんどの forward シグネチャから削除されました。これらのモデルに cache_position を直接渡しているユーザーは、それを削除してください。現在は generate が内部で処理するようになっています。
- [core] キャッシュ位置(cache positions)を完全に削除する(#44181) :@Cyrilvallez
Parallelization
パイプライン並列 (PP) およびテンソル並列 (TP) のサポートに対して、いくつかの不具合修正と改善が行われました。これには、supports_tp/pp_plan の検出の修正、Qwen2VL ベースのモデルにおける PP での属性エラーの解消、meta デバイスでの FSDP 読み込みの修正、そして TP の重みシャーディングが親モジュールの属性(例:in_features/out_features)を適切に更新し、PEFT のようなライブラリとの互換性を高めることの確認が含まれます。
- 複数のベースモデルのパイプライン並列サポートを修正する(#44699) :@hmellor(#44699)
- [Model] PP-Chart2Table モデルのサポートを追加(#43767) :@XingweiDeng(#43767)
- ベンチマークで TP を有効化する(#43750) :@sywangyi(#43750)
supports_{tp/pp}_plan を修正(#44696)@hmellor により [#44696]trainer_seq2seq.py で torch.distributed.fsdp を条件付きでインポート(#44507)@0xDELUXA により [#44507]Quantization
量子化のサポートは、最大 30 倍高速な FP8 の grouped および batched matmul、マルチ GPU セットアップ向けの静的 FP8 expert サポート、そして torchao の最小バージョンの 0.15.0 への引き上げによって改善されました。さらに、MXFP4 の依存関係エラーメッセージがより実用的になるように調整され、AWQ テストは GPTQModel の移行に合わせて更新されました。
- 修正: 特定のエラーメッセージに対してMXFP4依存関係チェックを分割(#44930) @javierdejesusda により、[#44930] で実施
- 静的FP8エキスパートのサポートを追加(#44895) @SunMarc により、[#44895] で実施
- torchao >=0.15 に更新し、量子化CIを修正(#44604) @SunMarc により、[#44604] で実施
- GPTQModelへの移行に向けてAWQテストを修正(#44654) @jiqing-feng により、[#44654] で実施
- [パフォーマンス] FP8のGroupedおよびBatched Matmuls(#44231) @IlyasMoutawwakil により、[#44231] で実施
- 量子化ジョブのためのPRコメントCIを修正(#44579) @ydshieh により、[#44579] で実施
トークナイズ
トークナイザーの読み込みと保存に対して、重複したファイル解析や、大きなボキャブラリに対する不要な深いコピーを排除するなど、いくつかのパフォーマンス改善が行われました。これらは大きなオーバーヘッドの原因になっていました。さらに、Hub上での不正なトークナイザークラス名(DeepSeek V2/V3、ModernBERT)、Llama 3トークナイザー変換におけるclean_up_tokenization_spacesの誤設定、AutoTokenizerクラス名解決における文字列置換の問題について、バグ修正が適用されました。
- fix: 重複したトークナイザのパースを避けることで、プロセッサの読み込みパフォーマンスを改善(#44927)。@ydshieh が #44927 の中で対応
- fix
processing_utils.py: パフォーマンスを改善するために、ProcessorMixinでトークナイザの deepcopy を行わないようにする(#44894)。@ydshieh が #44894 の中で対応 - fix: Llama 3 のトークナイザ変換で
clean_up_tokenization_spaces=Falseを設定(#44914)。@maxsloef-goodfire が #44914 の中で対応 - hub 上で不正なトークナイザクラスになってしまう問題の修正(deepseek_v2、deepseek_v3、modernbert)(#44801)。@itazap が #44801 の中で対応
- vibe voice の音響トークナイザテストに対する XPU の期待値を追加(#44428)。@kaixuanliu が #44428 の中で対応
- fix(tokenizer): AutoTokenizer でクラス名がサフィックスとして使われる場合のみ Fast をクラス名から取り除く(#44443)。@harshaljanjani が #44443 の中で対応
キーネル
カーネルサポートは拡張され、Flash Attention 4 のフォールバック統合、継続的バッチ処理用の paged_attention カーネル、さらにカスタムカーネル向けの Neuron デバイスサポートが追加されました。クラッシュを防ぐためにカーネルのバージョン依存関係を更新し、LFM2 カーネルのパスを修正するなど、いくつかの安定性修正も行われました。
- [
FA4] カーネルのフォールバックを追加(#44797)。@vasqu が [#44797] で行いました。 - クラッシュを回避するために kernels のバージョン依存関係を更新(#44887)。@Cyrilvallez が [#44887] で行いました。
- lfm2 カーネルパスを修正(#44634)。@Cyrilvallez が [#44634] で行いました。
- [CB] paged_attention カーネルを追加(#44379)。@remi-or が [#44379] で行いました。
- Neuron カーネルの統合(#44417)。@michaelbenayoun が [#44417] で行いました。
キャッシュ
キャッシュに関連するいくつかの修正と改善が行われました。具体的には、LFM2 のキャッシュ実装を他の Mamba のキャッシュに合わせること、transformers serve のストリーミングエンドポイントにおける KV キャッシュ継続でのテンソルインデックス参照のクラッシュを修正すること、そして use_cache=False を使用した場合の Idefics3 の生成バグを解決することです。さらに、変更されていない有効なファイルをスキップしてビルドのパフォーマンスを向上させるために、モデルリンタにキャッシングレイヤーも追加されました。
- lfm2 のキャッシュを他の mamba のキャッシュに揃える(#44866)。@Cyrilvallez が [#44866] で行いました。
- 機能: モデルリンタにキャッシュを追加(#44790)。@tarekziade が [#44790] で行いました。
Vision
Fast Image Processors のフルパス import に対する後方互換性を修正し、freqs_ci がバッファとして登録されていなかったために、device_map="auto" でモデルを読み込む際に失敗していた Llama4 のビジョン rotary embedding の初期化エラーを解決しました。
- Fast Image Processors のフルパス import に対する後方互換性を修正(#44926)@yonigozlan により [#44926]
- 修正(models, testing): Llama4 のビジョン rotary meta テンソルの初期化と、MyT5 の get_tokenizer シグネチャを修正(#44581)@harshaljanjani により [#44581]
- Flash Attention のコミットを固定(pinning)することで、AMD Docker イメージのビルド・タイムアウトを修正(#44546)@Abdennacer-Badaoui により [#44546]
Generation
cache_position 引数は生成パイプラインから完全に削除されました。これは、すべてのモデルがそれを使用しないように更新されたためです(リモートコードのモデルについては、後方互換性のための経路を保持しています)。さらに、chunked decoding を伴う LASR の統合テストを追加し、廃止されたパイプラインタスクへの古い参照を整理しました。
- [generate] 生成においてもう
cache_positionを決して使用しないでください(#44816)@Cyrilvallez により [#44816] - パイプとチャンク化されたデコードを使用したLASRの統合テストを追加 (#42823):@kho による [#42823]
- 修正:
text2text-generation、summarization、translationのパイプラインタスクへの参照を削除 (#44510):@math-hiyoko による [#44510]
バグ修正と改善
- 動的な重み変換は再帰的 (#44300):@zucchini-nlp による [#44300]
- テストが見つからない場合は
tests_hubを実行しない (#45014):@ydshieh による [#45014] Llama4TextConfigにおけるattention_chunk_sizeの型ヒントを修正 (#45002):@hmellor による [#45002]AutoProcessor.from_pretrainedが hub の kwargs を静かにドロップしてしまう問題を修正 (#44710):@he-yufeng による [#44710]maybe_autocastが meta デバイスのテンソルでクラッシュする問題を修正 (#44984):@Butanium による [#44984]- fix: Python 3.13 互換性のため、@torch.jit.script と def の間にあるコメント内の Copied を削除 (#44986) @Krishnachaitanyakc による [#44986]
- vllm の小さな修正をいくつか (#44990) @ArthurZucker による [#44990]
- fix(models): Perceiver の interpolate_pos_encoding がソースサイズに対して補間する問題を修正 (#44899) @harshaljanjani による [#44899]
mm_token_typeがパディングされないリストでも許可する (#44563) @zucchini-nlp による [#44563]- 同等のフォールバックを使用して CPU の 16 バイトアラインメント問題を修正 (#44970) @IlyasMoutawwakil による [#44970]
- refactor: QA の呼び出しを統一 (#44879) @tarekziade による [#44879]
Qwen2VLの tie_word_embedding の問題を修正 (#44976) @hmellor による [#44976]check_auto_docstringsにおいてモジュラ(!!)+ 設定(Configs)をサポート (#44803) を @yonigozlan が [#44803](#44803) で提案- [
vllm x v5] nit((#44971) を @ArthurZucker が [#44971](#44971) で提案 - LwDetrImageLoss: cuda デバイスで amp を使用した際にクラッシュしないよう dtype キャストを修正する (#44886) を @m-matthias が [#44886](#44886) で提案
- [AMD CI] Gemma3/Gemma3n の期待事項(#44972)を @Abdennacer-Badaoui が [#44972](#44972) で提案
- parse_response を正式に起動する(#44674)を @Rocketknight1 が [#44674](#44674) で提案
- load_best_model_checkpoint_at_end を修正: 最良のモデルのチェック… を読み込まない(#44583)を @wilnn が [#44583](#44583) で提案
T5ModelIntegrationTestが失敗する問題を修正(#44934)を @Sai-Suraj-27 が [#44934](#44934) で提案- 設定 kwargs(#44953)を @zucchini-nlp が [#44953] 内で対応
- [CB] [Minor] テストスイートを簡素化する(#44858)を @remi-or が [#44858] 内で対応
- プロセッサで任意のテンプレート kwargs を許可する(#44881)を @zucchini-nlp が [#44881] 内で対応
- DebertaV2Tokenizer の post_processor が欠落していて特殊ト…(#44570)を



