| ここにいる多くの方と同じで、何か少しでも本格的なものを作ろうとすると、Claudeの使用量制限にぶつかり続けていました。 私は求人検索の自動化パイプライン(Career-Opsプロジェクトに基づく)で作業していて、素朴なフローだと申請1件あたり約16kトークンを消費していました——完全に持続不可能でした。 そこで、トークン効率を第一級の関心事として、後回しにせず組み直すのに少し時間を使いました。 結果
⚡ 実際に役立ったこと(実践的な学び)1. プロンプトキャッシュ(最大の勝ち筋)
同じコンテキストを毎回送っているなら、トークンを浪費しています。 2. デフォルトでSonnet/Opusにせず、モデルルーティングする
ほとんどの手順には高価なモデルは不要です。 3. 再利用できるものは前計算する
フォーム入力の間にLLM呼び出しを約94%削減しました。 4. 重複作業を避ける
同じ内容に対して繰り返しトークンを燃やすのを防ぎます。 5. 「過剰なインテリジェンス」を減らす
すべてがLLMのフル推論を必要とするわけではありません。 重要な洞察ほとんどのClaudeワークフローが制限に当たるのは、それが複雑だからではありません—— 他の人のセットアップが気になります
https://github.com/maddykws/jubilant-waddle サンティアゴ・フェルナンデスのCareer-Opsに着想を得ています。これは、効率と使用量制限下でのスケーリングに焦点を当てたフォークです。 [リンク] [コメント] |
求人検索パイプラインにおけるClaudeの使用量を約85%削減(16k → 900トークン/応募)—うまくいったこと
Reddit r/artificial / 2026/4/8
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage
要点
- 記事では、求人検索の自動化パイプラインが当初は応募1件あたり約16kトークンを消費しており、Claudeの利用制限により持続不可能になった経緯が説明されている。
- トークン効率を設計上の最重要制約として扱うことで、使用量をおよそ85%削減し、安定性も向上して応募1件あたり約900トークンまで到達した。
- 最大の改善はプロンプトキャッシュで、特にキャッシュ_control: ephemeral を用いて、繰り返されるシステムおよびプロフィールの文脈をキャッシュすることで、反復される操作に伴うトークン消費を削減した。
- また、負荷に応じてHaiku/Sonnet/Opusといった異なるClaudeモデルへタスクを振り分け、最も高コストなモデルにデフォルトで固定するのではなくしたことで、コスト/パフォーマンスも改善された。
- さらに、再利用可能な「answer bank(回答バンク)」の応答を事前計算し、重複する作業(例:セマンティックTF-IDFによるフィルタリング)を重複排除したこと、そして不必要な深い推論を避けるための軽量な分類器を追加したことで、追加の節約が実現した。



