LLMを16回呼び出したら、1回より安くて高品質になった話(0.84円)
Zenn / 2026/4/20
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- LLMへの入力を1回で処理するのではなく、同じ目的を「16回の呼び出し」に分割することで、結果の品質を保ちつつコストを下げられたという実験・報告である。
- 1回呼び出しよりも、複数回に分けた推論(もしくは段階的な問い合わせ)の方が、総額コストあたりの成果が良くなるケースがあることを示している。
- 「0.84円」という具体的な支出単位を含み、従量課金のLLM利用における実務的な最適化のヒントになっている。
- 品質向上/維持とコスト最適化を同時に狙える可能性が示され、プロダクト運用や自動化設計での意思決定に影響しうる。
結論
LLMを1回で全部やらせると品質が落ちる。タスク分解+キャッシュにしたら、安くて高品質になった。
57分の会議の議事録生成を、Gemini 2.5 Flash-Liteで16回に分割して呼び出した結果、1回あたりの処理コストは0.84円。上位モデルを1回呼び出すより安く、かつ高品質な議事録が得られました。この記事では、その設計と実測データを共有します。
1. 議事録生成というタスクの難しさ
会議の文字起こしには特有の難しさがあります。
話し言葉なので構造がなく、そのままでは読みにくい
話題が飛んだり、複数の論点が混在していることが多い
1時間の会議で数千〜数万トークンに...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


