多くのRAGチュートリアルは、検索(retrieval)やプロンプト(prompting)に焦点を当てています。実際の問題は、コンテキストが成長し始めたときに起こります。この記事では、メモリ、圧縮(compression)、再ランキング(re-ranking)、そしてトークン予算(token budgets)を制御する、純粋なPythonだけで構築した完全なコンテキスト・エンジニアリング・システムを紹介します。これにより、LLMは現実的な制約のもとでも安定した動作を維持できます。
投稿 RAG Isn’t Enough — I Built the Missing Context Layer That Makes LLM Systems Work は、Towards Data Science に最初に掲載されました。




