Abstract
開発者と消費者はますます、掲載されているAPI価格に基づいて推論言語モデル(RLMs)を選択するようになっています。しかし、その価格は実際の推論コストをどれほど正確に反映しているのでしょうか?私たちは本件に関する最初の体系的な研究を行い、競技数学、科学QA、コード生成、複数領域の推論を含む9種類の多様なタスクにわたって、最先端のRLM8モデルを評価します。その結果、価格逆転現象を見出します。モデル対の比較において21.8%の割合で、掲載価格がより低いモデルのほうが、実際の総コストはより高くなります。逆転の大きさは最大で28倍に達します。たとえば、Gemini 3 Flashの掲載価格はGPT-5.2より78%安いにもかかわらず、全タスクにわたる実コストは22%高くなります。原因は、思考トークン消費における大きな異質性にあることを突き止めます。同じ問いに対して、あるモデルが別のモデルより900%多くの思考トークンを使用することがあります。実際、思考トークンのコストを取り除くと、ランキングの逆転は70%減少し、価格とコストのランキング間の順位相関(Kendallの\tau)は0.563から0.873へと上昇します。さらに、クエリごとのコスト予測は本質的に難しいことも示します。同じクエリを繰り返し実行すると、思考トークンの変動が最大9.7倍に及び、いかなる予測器にも不可避なノイズの下限が確立されます。これらの結果は、掲載されているAPI価格が実際のコストの信頼できる代理指標にならないことを示しており、コストを意識したモデル選択と、透明性のあるリクエストごとのコスト監視が求められます。