価格反転(プライス・リバーサル)現象:より安い推論モデルが、結果的にもっと高くつくとき

arXiv cs.CL / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、9種類のタスクタイプにまたがる8つの最先端推論言語モデルについて、提示されているAPI価格と実際の推論コストを比較する最初の体系的研究を提示し、価格がモデル選定を誤らせうることを明らかにする。
  • 「価格反転」現象を特定し、より低い表示価格のモデルが、ペア比較の21.8%でより高いコストを要することが判明する。観測されたコストの不一致の大きさは最大で28倍(例:Gemini 3 Flashは安く見えるが、全体としてはより高くつく)。
  • 主因は、「思考トークン(thinking token)」の消費量に極端な異質性があることにある。同一のクエリでも、あるモデルが別のモデルより最大900%多く思考トークンを使う場合がある。
  • 著者らが評価から思考トークンのコストを取り除くと、順位の反転は70%低下し、価格とコストの相関は大幅に改善する(Kendallのτが0.563から0.873へ)。これにより、内部計算に関する透明性の重要性が強調される。
  • 本研究はさらに、同じクエリを繰り返して実行すると思考トークンが最大9.7倍変動しうるため、クエリ単位のコスト予測は本質的にノイズが大きいことを示す。これは、除去できないノイズの下限が存在することを意味し、コストを意識した選定や、リクエストごとのコスト監視の必要性を裏付ける。

Abstract

開発者と消費者はますます、掲載されているAPI価格に基づいて推論言語モデル(RLMs)を選択するようになっています。しかし、その価格は実際の推論コストをどれほど正確に反映しているのでしょうか?私たちは本件に関する最初の体系的な研究を行い、競技数学、科学QA、コード生成、複数領域の推論を含む9種類の多様なタスクにわたって、最先端のRLM8モデルを評価します。その結果、価格逆転現象を見出します。モデル対の比較において21.8%の割合で、掲載価格がより低いモデルのほうが、実際の総コストはより高くなります。逆転の大きさは最大で28倍に達します。たとえば、Gemini 3 Flashの掲載価格はGPT-5.2より78%安いにもかかわらず、全タスクにわたる実コストは22%高くなります。原因は、思考トークン消費における大きな異質性にあることを突き止めます。同じ問いに対して、あるモデルが別のモデルより900%多くの思考トークンを使用することがあります。実際、思考トークンのコストを取り除くと、ランキングの逆転は70%減少し、価格とコストのランキング間の順位相関(Kendallの\tau)は0.563から0.873へと上昇します。さらに、クエリごとのコスト予測は本質的に難しいことも示します。同じクエリを繰り返し実行すると、思考トークンの変動が最大9.7倍に及び、いかなる予測器にも不可避なノイズの下限が確立されます。これらの結果は、掲載されているAPI価格が実際のコストの信頼できる代理指標にならないことを示しており、コストを意識したモデル選択と、透明性のあるリクエストごとのコスト監視が求められます。