中国語は「バイブ・コーディング」で英語より効率的ではない:トークンコストと問題解決率に関する予備研究

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • ソーシャルメディアで広まっている「LLMのコーディングでは中国語プロンプトの方が英語よりトークン効率が高く、APIコストを最大40%削減できる」という主張を、SWE-bench Liteを用いて検証した。
  • 対象としたモデル全体で、中国語に一貫したトークン効率の優位性は確認されず、言語とトークンコストの関係が単純な前提で成り立つわけではないことが示された。
  • トークンコストの結果はモデル依存で、MiniMax-2.7では中国語プロンプトでトークン使用量が増える一方、GLM-5では中国語プロンプトでトークン数が減るなど、モデルのアーキテクチャが影響している。
  • 重要な点として、性能面では中国語プロンプトの成功率が概して英語より低く、成功に至ったタスクあたりの期待コスト(トークン消費と解決率を同時に考慮)でも同様の傾向が見られた。
  • モデル数やベンチマークが限られているため結論は暫定的であり、実務者は「プロンプト言語を中国語に変えるだけで」コスト削減や性能向上が得られると期待しない方がよいと示唆されている。

Abstract

ソーシャルメディアや実務者フォーラム上で、「中国語のプロンプトはLLMのコーディング課題において英語よりもトークン効率が高く、その結果としてコストを最大40\%削減できる」という主張が広まっている。これにより、開発者はAPIコストを節約するために、いわゆる「vibe coding」(雰囲気でコーディング)を中国語に切り替えることを検討するようになった。本論文では、ソフトウェア工学タスクのベンチマークであるSWE-bench Liteを用いて、当該「中国語のトークン効率」主張が精査に耐えるかどうかを検証するための、厳密な実証研究を行う。結果として、次の3つの重要な知見が得られた。第一に、中国語の効率的優位性は観測されない。第二に、トークンコストはモデルのアーキテクチャによって変動し、単純な仮定では説明できない形を示す。具体的には、MiniMax-2.7は中国語に対して1.28倍のトークンコストを示す一方で、GLM-5は中国語プロンプトのほうが実際にはより少ないトークンを消費する。第三に、そして最も重要なのは、我々がテストした全てのモデルにおいて、中国語でプロンプトを与えた場合の成功率が概ね英語の場合よりも低いことを見出した。また、コスト効率を「成功したタスクあたりの期待コスト」として測定し、トークン消費とタスク解決率の両方を同時に考慮した。これらの知見は、評価したモデル数が限られ、資源制約のためにテストしたベンチマークの範囲も狭いことから、決定的な結論というより予備的な証拠として解釈されるべきである。すなわち、トークンコストに対する言語の影響はモデル依存であり、実務者はプロンプト言語を中国語に切り替えるだけでコスト削減や性能向上が得られることを期待すべきではない、ということを示している。