最新の投稿では、プロンプトキャッシュだけでなく、一般的なキャッシュについてもたくさん取り上げてきました。そして、それがコストやレイテンシの面でAIアプリをどのように改善できるのかを説明しました。とはいえ、完全に最適化されたAIアプリであっても、レスポンスが生成されるまでに多少時間がかかることはありますし、単に[…]
この記事の How to Make Your AI App Faster and More Interactive with Response Streaming は、Towards Data Science に最初に掲載されました。