背景:私は主に韓国語で書いていて、Claude APIの請求額がちょっと恥ずかしい感じです。韓国語は同じ意味でも英語より本当に非効率にトークン化されるので、費用の一部は基本的にエンコードのオーバーヘッドです。
発想は、Claude APIの前に立つBunの小さなプロキシです。Claude Codeはローカルホストに接続するだけで、何かが変わったことは知りません。リクエストを送る前に、Gemma4 E2B(llama.cpp、ローカル)が次を行います:
- 韓国語の入力を英語に翻訳する。返ってくるレスポンスは韓国語のまま。ただし送信するプロンプトは英語にする
- 現在のターンに関係ない可能性が高いコンテキストをトリムする
- 推論が必要そうに見えるリクエストは、推論をまずGemma4にやらせて、その結果を渡す — そうすれば、有料モデルがその一部の作業をスキップできて、推論トークンをより少なく使えることを期待する
SQLiteをWALモードでキャッシュして、毎リクエストでの読み書き競合を避けるつもりです。
作り始める前に、私が本当に確信が持てない点が1つあります。推論を事前に供給することで実際に何か節約できるのか、それともモデルは結局内部でやり直して、どうあれあなたに推論分の料金を請求してくるだけなのか。
より大きな懸念は速度です。Gemma4が節約する以上のレイテンシを追加するなら、そもそもの目的が崩れてしまいます。実際にGemma4 E2BをIntel Macで動かした人はいますか? 特にそのハードウェアで、llama.cppだと1秒あたりどれくらいのトークン(tokens/sec)が出るのか気になっています。Apple Siliconの数字は至る所にありますが、Intelは見つけにくいです。
[link] [comments]




