o1/o3/o4の推論トークン、いくら使ってるか見えてますか? — llm-devproxy v0.3

Zenn / 2026/3/25

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • llm-devproxy v0.3を使うことで、o1/o3/o4の推論トークンが「いくら使われているか」を可視化できる点が主題です。
  • 推論トークンの把握により、コスト見積もりや利用量のモニタリングを運用に組み込みやすくなります。
  • どのモデル(o1/o3/o4)でどれだけ消費しているかを追えるため、モデル選定の判断材料になります。
  • 仕様・手順そのものが「開発者が実際に導入・検証するための実用寄り」な内容になっています。
推論トークン、正しく把握できていますか? o1、o3、o4-miniの推論トークン。Claude の extended thinking。Gemini 3 の thinking tokens。 2025年後半から「考えてから答える」モデルが主流になりました。精度は上がる一方でコスト面では厄介な問題が起きています。 プロバイダーごとに「見え方」が違う OpenAI(o1/o3/o4-mini): APIレスポンスの usage.completion_tokens_details.reasoning_tokens で推論トークン数を取得できます。ただし、ダッシュボード上では outp...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →