LLMを16回呼び出したら、1回より安くて高品質になった話（0.84円）

Zenn / 2026/4/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

LLMへの入力を1回で処理するのではなく、同じ目的を「16回の呼び出し」に分割することで、結果の品質を保ちつつコストを下げられたという実験・報告である。
1回呼び出しよりも、複数回に分けた推論（もしくは段階的な問い合わせ）の方が、総額コストあたりの成果が良くなるケースがあることを示している。
「0.84円」という具体的な支出単位を含み、従量課金のLLM利用における実務的な最適化のヒントになっている。
品質向上/維持とコスト最適化を同時に狙える可能性が示され、プロダクト運用や自動化設計での意思決定に影響しうる。

結論 LLMを1回で全部やらせると品質が落ちる。タスク分解＋キャッシュにしたら、安くて高品質になった。 57分の会議の議事録生成を、Gemini 2.5 Flash-Liteで16回に分割して呼び出した結果、1回あたりの処理コストは0.84円。上位モデルを1回呼び出すより安く、かつ高品質な議事録が得られました。この記事では、その設計と実測データを共有します。 1. 議事録生成というタスクの難しさ会議の文字起こしには特有の難しさがあります。話し言葉なので構造がなく、そのままでは読みにくい話題が飛んだり、複数の論点が混在していることが多い 1時間の会議で数千〜数万トークンに...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →