AIエージェントはどのようにお金(トークン)を使うのか?エージェント型コーディング課題におけるトークン消費の分析と予測

arXiv cs.CL / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、SWE-bench Verifiedで8つの最先端LLMの軌跡を分析し、AIエージェントがトークンをどこで消費するのか、どのモデルがトークン効率に優れるのか、実行前にトークン使用量を予測できるのかを明らかにすることを目的としています。
  • エージェント型タスクは非常にトークンコストが高く、コード推論やコードチャットの約1,000倍のトークンを消費し、総コストは出力よりも入力トークンによって主に左右されることが示されました。
  • トークン使用量は高いばらつきと固有の確率性を持ち、同一タスクでも実行ごとに総トークンが最大30倍異なることがあり、トークンを多く使っても精度が一貫して向上するわけではありません(精度は中程度のコストでピークを迎え、その後は頭打ちになりがちです)。
  • モデル間でトークン効率の差が大きく、同一タスクにおいてKimi-K2とClaude-Sonnet-4.5はGPT-5より平均で150万トークン以上多く消費しました。
  • 人間の専門家による課題の難易度評価は実際のトークンコストと弱くしか対応せず、さらに最先端モデルは自分自身のトークン使用量を正確に予測するのが難しく、実コストを体系的に過小評価する傾向があることが明らかになりました。

概要: 複雑な人間の業務ワークフローにおいてAIエージェントが広く導入されることで、LLMトークン消費が急速に増加しています。エージェントが、多数のトークンを必要とするタスクに投入されると、自然に次の3つの疑問が生じます: (1) AIエージェントはどこでトークンを消費しているのか? (2) どのモデルの方がトークン効率が高いのか? そして (3) エージェントはタスク実行前に自分のトークン使用量を予測できるのか? 本論文では、エージェントによるコーディングタスクにおけるトークン消費パターンについての最初の体系的研究を提示します。SWE-bench Verified に対して最前線の8つのLLMから得られた軌跡を分析し、タスク実行前に自らのトークンコストを予測するモデルの能力を評価します。得られた知見は次の通りです: (1) エージェント型のタスクは他と比べて特異的に高コストであり、コード推論やコードチャットの1000倍ものトークンを消費し、全体のコストを左右するのは出力トークンではなく入力トークンです; (2) トークン使用量は非常にばらつきが大きく、本質的に確率的です。同一タスクでも総トークン数は最大30倍異なることがあり、トークン使用量が多いほど精度が高くなるわけではありません。むしろ精度はしばしば中程度のコストでピークを迎え、高コストでは飽和します; (3) モデル間でトークン効率には大きな差があります。同一のタスクにおいて、平均するとKimi-K2とClaude-Sonnet-4.5はGPT-5よりも150万トークン以上多く消費します; (4) 人間の専門家が評価したタスクの難易度は、実際のトークンコストと弱くしか整合しておらず、人間が認識する複雑さと、エージェントが実際に費やす計算努力の間に本質的なギャップがあることが示されます; そして (5) 最前線のモデルは、自らのトークン使用量を正確に予測できず(弱い〜中程度の相関で最大0.39)、現実のトークンコストを体系的に過小評価します。本研究はAIエージェントの経済性に関する新たな洞察を提供し、この方向性における今後の研究を促すことができます。