v0.22.1

Ollama Releases / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Ollama v0.22.1では、mlxrunnerが複数シーケンスにまたがってサンプラーをバッチ処理できるようになり、マルチシーケンスのワークロードでスループットが向上します。
  • トークナイザーは、マルチ正規表現BPEのオフセット処理を修正し、トークン化の正確性に関する問題に対処します。
  • mlxの統合では、NVIDIA TensorRT Model Optimizerモデルのインポートに対応し、TensorRT最適化ワークフローとの互換性が広がります。
  • app/serverは、デスクトップアプリの起動時にアクティブな`ollama launch`セッションを終了させてしまう問題を修正します。
  • さらに、バッチ処理に対応したモデルサポートも追加され、バッチが適用できる推論パイプラインでより効率的に動作できるようになります。

変更点

  • mlxrunner: @jessegross#15736 で、複数のシーケンスにまたがってサンプラーをバッチ処理
  • tokenizer: @dhiltgen#15844 で、マルチ正規表現 BPE のオフセット処理を修正
  • mlx: @dhiltgen#15566 で、NVIDIA TensorRT Model Optimizer のインポートをサポート
  • app/server: @hoyyeva#15657 で、デスクトップアプリの起動がアクティブな ollama launch セッションを終了してしまう問題を修正
  • バッチ処理のためのモデル対応 @jessegross#15814
  • 新しいモデル @dhiltgen#15861

完全な変更履歴: v0.21.3-rc0...v0.22.1-rc0