自動ルーティングとフェイルオーバーで、無料のNVIDIA NIMモデル31個すべてを同時に利用する

Reddit r/LocalLLaMA / 2026/3/29

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

原文を読む →

共有:

要点

この記事は、単一のモデルを手動で選ぶのではなく、LiteLLMベースのプロキシ／ルーターが無料枠のNVIDIA NIMモデル31個すべてに対してリクエストを自動的に分散（ファンアウト）する仕組みを説明します。
レイテンシ（応答遅延）に基づくルーティングを用いて、各リクエストを現在最も速く利用可能なモデルに送信し、さらにモデルがレート制限に達するかダウンした場合に備えて、リトライとフェイルオーバーを実装します。
設定では、API上でどのモデルが稼働中かを検証し、状態が悪いモデルにはクールダウン・ウィンドウ（例：60秒）を適用したうえで、その後ルーティングが自動的に回復することを保証します。
複数のモデルグループ（例：nvidia-auto、nvidia-coding、nvidia-reasoning、nvidia-general、nvidia-fast）を定義し、コーディング → 推論 → 一般といったクロスタイアのフォールバックに対応しています。
ルーターはOpenAI互換のエンドポイント（例：localhost:4000）を公開し、著者はGitHubリポジトリと、依存関係のインストールおよびコンフィグの実行手順に関するガイダンスを共有しています。

自動ルーティングとフェイルオーバーで、無料のNVIDIA NIMモデル31個すべてを同時に使う

しばらくnvidia NIMの無料ティアを使っていて、いちばんの不満は「どのモデルに当てるか」を選ぶ必要があり、さらにレート制限を対処すること（モデルごとに約40RPM）です。

そこで、全部を自動で横断ルーティングする LiteLLM プロキシ設定を生成するセットアップスクリプトを書きました：

実際にAPIで生きているモデルを検証します
レイテンシーに基づくルーティングで、各リクエストごとに最速のものを選びます
レート制限されたら、リトライして次のモデルへルーティングします
モデルがダウンしたら、60秒クールダウンして自動復旧します
ティア間のフォールバック（coding -> reasoning -> general）

現時点で31モデル：deepseek v3.2、llama 4 maverick/scout、qwen 3.5 397b、kimi k2、devstral 2、nemotron ultra など。

ターゲットできる5つのグループ：

nvidia-auto - 全モデル、最速が勝つ（fastest wins）
nvidia-coding - kimi k2、qwen3 coder 480b、devstral、codestral
nvidia-reasoning - deepseek v3.2、qwen 3.5、nemotron ultra
nvidia-general - llama 4、mistral large、deepseek v3.1
nvidia-fast - phi 4 mini、r1 distills、mistral small

さらにgroq/cerebrasのキーも追加すると、38モデルに対して合計で約140RPMになります。全部無料です。

openai互換なので、どんなクライアントでも動きます：

client = openai.OpenAI(base_url="http://localhost:4000", api_key="sk-litellm-master")
resp = client.chat.completions.create(model="nvidia-auto", messages=[...])

セットアップはこれだけ：

pip install -r requirements.txt
python setup.py
litellm --config config.yaml --port 4000

github: https://github.com/rohansx/nvidia-litellm-router

他の人もこうやって無料プロバイダを重ねて使っているのか気になります。どのモデルをどのティアに入れるべきか、提案も歓迎します。

submitted by /u/synapse_sage
[link] [comments]