Codexのようなコーディングエージェントを使っている人は、より厳しいトークン上限に伴うつらさを把握しておく必要があります。私はPlusプランを使っているのですが、5時間の制限があまりにも短くて、本当にイライラします。https://github.com/samuelfaj/distill という distill というパッケージを見つけました。これはトークン使用量を99%削減できると主張しています。仕組みとしては、モデルに到達する前に、LLM(ローカルまたはホスト型)でコマンド出力を圧縮していることで実現しています。まあ、実際に使い始めてみたところ、セッションを延ばすのに役立っています。誰かの役に立つならと思い、限界をもう少し引き伸ばすのに共有します。
既知の問題 -
最新のビルドはWindowsには対応していますが、npmではまだ公開されていません。もしそれに行き当たったら、私と同じように このコメント のコマンドを使ってセットアップしてください(または、この投稿末尾からそのままコピーしてください)。
GPT-5ファミリーのような新しい推論モデルでは、何も告げずに失敗します。新しいモデルへの対応と修正を追加するために このissue を提出しました(メンテナーがコントリビューションに前向きだといいのですが!)。それまでの間は、推論しないモデル(gpt-4o、gpt-4.1、gpt-5-chat-latest など)で使ってください。
Windows インストールコマンド
- bunをインストール -
npm install -g bun - クローンしてインストール -
git clone https://github.com/samuelfaj/distill.git; cd distill; npm install - バイナリをビルド -
npm run build:bins - パスに追加 -
New-Item -ItemType Directory -Force packages\distill-win32-x64\bin | Out-Null
Copy-Item .dist\bun-windows-x64\distill.exe packages\distill-win32-x64\bin\distill.exe -Force
これが終わったら、確認してみてください -
PS D:\custom_pnpm\distill> distill --version
1.4.1




