クイックハック:コーディングエージェントのトークンを最大99%節約する方法

Dev.to / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • コーディングエージェント利用者は、特に「Plus」などのプランでセッション/時間の制限が短い場合に厳しいトークン制限で困ることがあり、記事ではその対策としてセッションを延ばす方法を共有しています。
  • 「distill」というパッケージは、最大99%のトークン削減をうたっており、ローカルまたはホスト型のLLMでコマンド出力などを圧縮してから、対象のコーディングモデルに渡すことで実現すると説明されています。
  • 記事には、bunの導入、バイナリのビルド、適切なパスへdistill.exeを配置する、Windows向けの具体的なインストール手順と、動作確認用のコマンドが含まれます。
  • 既知の問題として、npmにWindows版の最新ビルドがまだ公開されていない可能性があること、さらにGPT-5ファミリーのような新しい「推論」モデルではサイレントに失敗するため、現時点では推論なしモデル(gpt-4o、gpt-4.1、gpt-5-chat-latestなど)を使うべきだと述べられています。

Codexのようなコーディングエージェントを使っている人は、より厳しいトークン上限に伴うつらさを把握しておく必要があります。私はPlusプランを使っているのですが、5時間の制限があまりにも短くて、本当にイライラします。https://github.com/samuelfaj/distill という distill というパッケージを見つけました。これはトークン使用量を99%削減できると主張しています。仕組みとしては、モデルに到達する前に、LLM(ローカルまたはホスト型)でコマンド出力を圧縮していることで実現しています。まあ、実際に使い始めてみたところ、セッションを延ばすのに役立っています。誰かの役に立つならと思い、限界をもう少し引き伸ばすのに共有します。


既知の問題 -

  • 最新のビルドはWindowsには対応していますが、npmではまだ公開されていません。もしそれに行き当たったら、私と同じように このコメント のコマンドを使ってセットアップしてください(または、この投稿末尾からそのままコピーしてください)。

  • GPT-5ファミリーのような新しい推論モデルでは、何も告げずに失敗します。新しいモデルへの対応と修正を追加するために このissue を提出しました(メンテナーがコントリビューションに前向きだといいのですが!)。それまでの間は、推論しないモデル(gpt-4o、gpt-4.1、gpt-5-chat-latest など)で使ってください。


Windows インストールコマンド

  1. bunをインストール - npm install -g bun
  2. クローンしてインストール - git clone https://github.com/samuelfaj/distill.git; cd distill; npm install
  3. バイナリをビルド - npm run build:bins
  4. パスに追加 -
   New-Item -ItemType Directory -Force packages\distill-win32-x64\bin | Out-Null
   Copy-Item .dist\bun-windows-x64\distill.exe packages\distill-win32-x64\bin\distill.exe -Force

これが終わったら、確認してみてください -

PS D:\custom_pnpm\distill> distill --version
1.4.1
返却形式: {"translated": "翻訳されたHTML"}