完全ローカル AI コードレビュー (3/3) 運用編：Ollama スパイク対策と num_ctx 切り詰め

Zenn / 4/29/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

共有:

Key Points

OllamaでローカルLLMをコードレビュー用途に運用する際の「スパイク（急激な負荷・応答遅延）」の抑制策を整理し、安定稼働を狙う運用ポイントを提示している。
設定パラメータのうち num_ctx を切り詰めることで、メモリ使用量や推論時負荷を抑えつつ実運用に必要な応答性能を確保する考え方が説明されている。
コードレビューのワークフローで起きがちな長文投入や繰り返し実行を前提に、モデル側のコンテキスト長と計算コストのトレードオフを実務目線で扱っている。
（シリーズ運用編として）「3/3」として、導入やチューニングに続く実際の運用・制御に焦点を当てている。

はじめに連載最終回。Part1 で設計、Part2 で構築を終え、@ai-bot を打った瞬間に Mac のファンが唸ったり、大 Diff への返答が「変更点が多数あります」で終わった経験はありませんか。本記事はその「動いたあとに発現する壁」を症状別ランブックとして整理する運用編です。 ! この記事で扱うこと (TL;DR) 5 種の典型症状をフローチャートで切り分ける運用ランブック E2E テスト T1〜T6 を created_at 差分で正しく計測する方法 num_ctx と 100k 文字切り詰めが独立に働く 2 つの制約であることの図解 (G9) Apple Sil...

Continue reading this article on the original site.

Read original →