問題
OpenAI や Claude で開発しているなら、
おそらくすべての API 呼び出しで 60〜80% 過払いしています。
その理由は以下です:
ほとんどの AI アプリは、すべてのリクエストで GPT-4 を呼び出しています —
以前の呼び出しで
すでに回答がキャッシュされている場合でも。 同じ質問を、
100 人の異なるユーザーが投げる、
そのたびにフル価格の API 呼び出しが 100 回。
この問題をあちこちで見かけるのに飽きてしまったので、
自動的に解決するために VibeCore を作りました。
VibeCore とは何ですか?
VibeCore はミドルウェアの層で、
あなたのアプリとあらゆる AI API の間に入ります。自動的に:
- 繰り返しのプロンプトをキャッシュ(重複はコスト 0)
- 類似したプロンプトを理解(セマンティックキャッシュ)
- 単純なクエリを無料モデルにルーティング
- すべてのリクエストで節約額を追跡
仕組み
レイヤー 1 — 正確キャッシュ
同じプロンプトが再び尋ねられたとき、VibeCore は
キャッシュされたレスポンスを即座に返します。
コスト: Rs.0
速度: 約 5ms
レイヤー 2 — セマンティックキャッシュ
類似したプロンプトが尋ねられたとき(例:「
フランスの首都は?」 vs 「フランスの首都は何?」)、VibeCore は
埋め込みを使って、最も近いキャッシュ済みレスポンスを見つけます。
コスト: Rs.0
速度: 約 30ms
レイヤー 3 — スマートルーティング
単純なプロンプト(20 語未満、複雑なキーワードなし)は
Groq の llama のような無料のローカルモデルにルーティングされます。
コスト: Rs.0
速度: 約 500ms
統合
npm パッケージをインストール:
npm install @aadi0001/vibecore
アプリで使う:
const VibeCore = require('@aadi0001/vibecore')
const vc = new VibeCore('YOUR_API_KEY')
const result = await vc.generate('What is photosynthesis?')
console.log(result.response)
console.log('Saved: Rs.' + result.saved)
console.log('Source:', result.source)
Python の場合:
import requests
response = requests.post(
'https://vibecore-07n6.onrender.com/generate',
json={'prompt': 'What is photosynthesis?'},
headers={'x-api-key': 'YOUR_API_KEY'}
)
print(response.json()['response'])
print('Saved:', response.json()['saved'])
レスポンス形式
すべてのレスポンスにはコスト情報が含まれます:
{
"response": "Photosynthesis is...",
"cached": false,
"source": "groq",
"saved": 0.012,
"total_saved": 0.024
}
実際の結果
10 件のリクエストでのテストでは:
- 6 回キャッシュヒット(キャッシュ率 60%)
- 4 回 groq 呼び出し(無料モデル)
- 0 回 有料 API 呼び出し
- 合計の節約額: Rs.0.08
10,000 件/日 の規模で:
- 見込みの節約額: Rs.800/日
- 月間の節約額: Rs.24,000
ダッシュボード
各ユーザーには、以下を表示するパーソナルダッシュボードが提供されます:
- 実行したリクエスト総数
- 節約した総額
- キャッシュヒット率
- リアルタイムのリクエストログ
無料で始める
無料の API キーを取得(1000 リクエスト、クレジットカード不要):
https://vibecore-07n6.onrender.comインストール:
npm install @aadi0001/vibecoreAI の呼び出しを置き換える — 節約はすぐに始まります。
技術スタック
- FastAPI(Python バックエンド)
- Redis(キャッシュ)
- Groq API(無料の AI モデル)
- Sentence Transformers(セマンティック類似度)
- Node.js SDK(npm パッケージ)
- Render(デプロイ)
これを 48 時間で作りました。
ぜひコメントでフィードバックをください!
ほかにどんな AI のコスト最適化を試しましたか?
返却形式: {"translated": "翻訳されたHTML"}



