長いエージェント実行ではサブエージェントがトークンコストの大半を占める:実運用で使用量を70〜90%削減する対策

Reddit r/artificial / 2026/6/3

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 2026年の研究(Baiら)では、SWE-benchを用いたエージェント型コーディングが通常のチャットに比べて約1,000倍のトークンを消費し、しかも同一タスクでもトークン量に大きなばらつきがある一方で、支出に比例して精度は上がらないことが示された。
  • 実運用の追跡では、コンテキストが450,000トークンに達したリサーチ統合作業が、PLAN.md/INVARIANTS.mdの扱いや読み取り予算の設計など「会話ウィンドウに溜まり続けない」ための制御を追加することで約85,000トークンまで削減できた。
  • 提案される改善策には、ターンごとの2,000行の読み取り予算ゲート、サブエージェントの連携のためのメモをメイントランスクリプトに混ぜない工夫、履歴の再クエリ(取り直し)を見直すことが含まれる。
  • 動的なツール探索では、エージェントが実際に選択したツールに対してだけスキーマを読み込み、毎回フルのカタログを注入しないことで、入力トークンを96%削減し、総コストも90%削減した例が紹介されている。
  • 記事は論文分析や実装チェックリストを含み、長時間エージェント実行で遭遇したトークン/コスト課題の共有も呼びかけている。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →