DeepInfra が Hugging Face の Inference Providers で利用可能になりました
私たちは、DeepInfra が Hugging Face Hub の対応 Inference Provider になったことをお知らせできて嬉しく思います!
DeepInfra は成長を続けるエコシステムに加わり、Hub 上のモデルページでサーバーレス推論の幅と機能を直接拡張します。Inference Provider はまた、(JS と Python の両方の)クライアント SDK にシームレスに統合されているため、好みのプロバイダーで幅広い種類のモデルを簡単に使えるようになります。
DeepInfra は、業界で最も費用対効果の高いトークン単価の 1 つを提供するサーバーレス AI 推論プラットフォームです。100 を超えるモデルのカタログにより、DeepInfra は、最小限のセットアップでアプリケーションに多様な AI 機能を統合したい開発者にとって導入しやすいものとなっています。
DeepInfra は、LLM からテキスト生成画像、テキストから動画、埋め込み(embeddings)など、幅広い種類のモデルに対応しています。今回の初期統合の一環として、DeepInfra は Hugging Face で 会話(conversational)およびテキスト生成(text-generation)タスク のサポートを開始し、DeepSeek V4、Kimi-K2.6、GLM-5.1 などの人気のオープンウェイト LLM にアクセスできるようになります。追加タスクのサポート(テキストから画像、テキストから動画、埋め込みなど)は近日中に提供されます!
Inference Provider として DeepInfra を使う方法については、専用の ドキュメントページ をご覧ください。
DeepInfra がサポートする対応モデルの一覧は こちら です。
Hugging Face で DeepInfra をフォロー: https://huggingface.co/DeepInfra。
仕組み
Web サイトの UI で
- ユーザーアカウントの設定で、次のことができます:
- 申し込み済みのプロバイダーに対して、自分専用の API キーを設定します。カスタムキーが設定されていない場合、リクエストは HF 経由でルーティングされます。
- 希望するプロバイダーの順序を設定します。これは、モデルページ内のウィジェットおよびコードスニペットに適用されます。
- 前述のとおり、Inference Provider を呼び出す際には 2 つのモードがあります:
- カスタムキー(呼び出しは推論プロバイダーへ直接行われます。対応する inference provider の自分の API キーを使用します)
- HF によるルーティング(この場合、プロバイダーからトークンを用意する必要はなく、課金はプロバイダーのアカウントではなく、HF アカウントに対して直接適用されます)
- モデルページでは、(現在のモデルと互換性のある)サードパーティの推論プロバイダーが表示されます(ユーザーの希望順に並びます)

クライアントSDKから
DeepInfra は Hugging Face の SDK で利用できます――Python では huggingface_hub(>= 1.11.2)、JavaScript では @huggingface/inference です。
以下の例は、DeepInfra 経由で DeepSeek V4 Pro を使う方法を示しています。認証には Hugging Face トークン を使用してください。リクエストは自動的に DeepInfra にルーティングされます。
お気に入りのエージェント・ハーネスから
Hugging Face の Inference Provider は、Pi、OpenCode、Hermes Agents、OpenClaw など、ほとんどの Agent Harness に統合されています。つまり、DeepInfra でホストされているモデルを、追加のつなぎコードなしでそのままお気に入りのツールに差し込めます。統合の一覧はこちらから確認できます。
Python から
import os
from openai import OpenAI
client = OpenAI(
base_url="https://router.huggingface.co/v1",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V4-Pro:deepinfra",
messages=[
{
"role": "user",
"content": "メモ化を使ってn番目のフィボナッチ数を返すPython関数を書いてください。"
}
],
)
print(completion.choices[0].message)
JS から
import { OpenAI } from "openai";
const client = new OpenAI({
baseURL: "https://router.huggingface.co/v1",
apiKey: process.env.HF_TOKEN,
});
const chatCompletion = await client.chat.completions.create({
model: "deepseek-ai/DeepSeek-V4-Pro:deepinfra",
messages: [
{
role: "user",
content: "メモ化を使ってn番目のフィボナッチ数を返すPython関数を書いてください。",
},
],
});
console.log(chatCompletion.choices[0].message);
請求
直接リクエスト、つまり推論プロバイダーのキーを使用する場合は、対応するプロバイダーから請求されます。たとえば、DeepInfra の API キーを使用すると、DeepInfra のアカウントに対して課金されます。
ルーティングされたリクエスト、つまり Hugging Face Hub 経由で認証する場合は、標準のプロバイダー API レートのみをお支払いします。追加のマークアップはありません。プロバイダーのコストをそのまま直接転送するだけです。 (将来的には、プロバイダー パートナーと収益分配の合意を結ぶ可能性があります。)
重要な注意 ‼️ PRO ユーザーは毎月 Inference credits を 2 ドル分受け取ります。これらはプロバイダー間で利用できます。
Hugging Face PRO プラン に登録して、Inference credits、ZeroGPU、Spaces Dev Mode、制限の 20 倍、そしてその他を利用できるようにしましょう。
また、サインイン済みの無料ユーザー向けに少量の割当で無料の推論も提供していますが、可能であれば PRO にアップグレードしてください!
フィードバックと次のステップ
ぜひフィードバックをお聞かせください!ここでご意見やコメントを共有してください: https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49






