| しばらくnvidia NIMの無料ティアを使っていて、いちばんの不満は「どのモデルに当てるか」を選ぶ必要があり、さらにレート制限を対処すること(モデルごとに約40RPM)です。 そこで、全部を自動で横断ルーティングする LiteLLM プロキシ設定を生成するセットアップスクリプトを書きました:
現時点で31モデル:deepseek v3.2、llama 4 maverick/scout、qwen 3.5 397b、kimi k2、devstral 2、nemotron ultra など。 ターゲットできる5つのグループ:
さらにgroq/cerebrasのキーも追加すると、38モデルに対して合計で約140RPMになります。全部無料です。 openai互換なので、どんなクライアントでも動きます: client = openai.OpenAI(base_url="http://localhost:4000", api_key="sk-litellm-master") セットアップはこれだけ: pip install -r requirements.txt github: https://github.com/rohansx/nvidia-litellm-router 他の人もこうやって無料プロバイダを重ねて使っているのか気になります。どのモデルをどのティアに入れるべきか、提案も歓迎します。 [link] [comments] |
自動ルーティングとフェイルオーバーで、無料のNVIDIA NIMモデル31個すべてを同時に利用する
Reddit r/LocalLLaMA / 2026/3/29
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- この記事は、単一のモデルを手動で選ぶのではなく、LiteLLMベースのプロキシ/ルーターが無料枠のNVIDIA NIMモデル31個すべてに対してリクエストを自動的に分散(ファンアウト)する仕組みを説明します。
- レイテンシ(応答遅延)に基づくルーティングを用いて、各リクエストを現在最も速く利用可能なモデルに送信し、さらにモデルがレート制限に達するかダウンした場合に備えて、リトライとフェイルオーバーを実装します。
- 設定では、API上でどのモデルが稼働中かを検証し、状態が悪いモデルにはクールダウン・ウィンドウ(例:60秒)を適用したうえで、その後ルーティングが自動的に回復することを保証します。
- 複数のモデルグループ(例:nvidia-auto、nvidia-coding、nvidia-reasoning、nvidia-general、nvidia-fast)を定義し、コーディング → 推論 → 一般 といったクロスタイアのフォールバックに対応しています。
- ルーターはOpenAI互換のエンドポイント(例:localhost:4000)を公開し、著者はGitHubリポジトリと、依存関係のインストールおよびコンフィグの実行手順に関するガイダンスを共有しています。



