ディープラーニングモデルを本番環境にデプロイすることは、研究者が訓練するモデルと、実際にスケールに応じて効率よく動作するモデルの間に、これまで常に痛ましいギャップが存在してきました。TensorRTはあります。Torch-TensorRTもあります。TorchAOもあります。しかし、それらを組み合わせて配線し、どのレイヤに対してどのバックエンドを使うべきかを決め、調整(チューニング)したモデルが依然として[…]
この記事 NVIDIA、PyTorchモデルのために最速の推論バックエンドを自動的に見つけるオープンソース推論ツールキット「AITune」を公開 は、最初に MarkTechPost に掲載されました。



