「トークン数を数えるのはバカげている」—AIコーディング熟練度を測る無料指標を作りました

Dev.to / 2026/5/21

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は、Claude CodeやCodexなどのAIコーディングツールにおける「実際の上手さ」を測る指標としてトークン計測は不適切だと主張しており、理由はそれがコストは反映してもスキルを表しにくいためです。
  • 実際のセッションログを分析した結果、優れた利用者も苦戦している利用者も多くのトークンを消費しうることが分かり、むしろトークン消費が多いほど非効率になりやすい(関連のないファイルを詰め込む、長いプロンプトで力押しする等)傾向も見られました。
  • トークン使用量がKPIになると、利用者が意図的にトークンを消費して数値を稼ぐ合理的な動機が生まれ、指標が目的化して本質的な評価が崩れる点を警告しています。
  • そこで著者は、総消費量ではなく、ローカルのセッション活動から読み取れる行動(カスタマイズ、並列エージェント、バックグラウンド作業、ツールの幅、計画、反復、カスタムスキルなど)に基づいて熟練度を推定する無料指標を作ったと述べています。
  • さらに、これらの行動シグナルが熟練度と整合する形でまとまり(複数指標を持つほど高い傾向)、能力の違いを反映しうると報告しています。

私たちは、繰り返し出てくるこの質問に対して「本当の答え」を見つけようとしてきました。つまり、誰が実際に Claude Code、Codex、そしてその他のAIコーディングツールを「うまく使えている」のかを、どうやって測るのか?「使っているかどうか」ではなく、「AIをどれくらい上手に使えているか」です。

最初に私たちが検討した指標は、他のみんなと同じくトークン使用量でした。これは、最初にそのまま引き出せる唯一の数値です。Anthropic や OpenAI はコンソールで使った spend データを渡してくれます。spend はコストと相関します。コストは財務が気にするものです。だからトークン使用量が、簡単な第一の答えになります。

しかし、もちろんトークンを数えるのは指標として微妙です。

実際のセッションを見て気づいたこと

私たちが、これらのツールをはっきり使いこなしている人たちのセッションログと、明らかに苦戦している人たちのログを読み始めたとき、両方のグループがトークンを消費していました。ときには、苦戦している人のほうがより多く消費していることもありました。

ワークフローを磨き上げたシニア開発者は、ジュニアが 100 万トークンかけて噛み砕くようなものを 10 万トークンで出荷します。高スキルなやり方は、ターン数が少ないこと、プロンプトがより鋭いこと、小さなコンテキストウィンドウで済むこと、そして最初に計画を立てることです。

トークン消費量で順位をつけると、人を遅くする要因に報酬を与えることになってしまいます:

  • 関連のないファイルでコンテキストを水増しする
  • 長く長くなるプロンプトで力任せに試す(総当たりする)
  • 再利用可能なワークフローを作る代わりに、チャットモードにいつまでも居続ける

これらに加えて、ある会社がトークン使用量を測り始めると、インセンティブが「偶然」から「意図的」へと反転します。あなたのパフォーマンスレビュー、あるいは「AI導入KPI」がトークン消費に依存しているなら、合理的な動きは、意図してトークンを燃やすことになります。私たちはすでに、数値を増やすための雑務として、モデルをループさせるスクリプトを書いている人がいる話を聞いています。指標が仕事になり、仕事が効いているかどうかが意味を失います。

同様の批判が、コード行数やコミット数に対してもなされているのを私たちは見てきました。量はスキルではありません。ダッシュボード上ではそう見えるだけです。

そこで、別のものを見ようとしました

私たちは、ローカルのセッション活動から読み取れることの中で、どれだけ費やしたかではなく、その人がツールをどう設定したかを示すものを探し始めました。

8つの要素が、まとまってクラスターを形成し続けました。2つ持っている人はたいてい4つ持っています。5つ持っている人は、ほぼ全部そろっていることが多いです。

  • カスタマイズ — CLAUDE.md、AGENTS.md、カスタムのスラッシュコマンド、フック。それらは、デフォルトで走らせるのではなく、自分のワークフローに合わせてどれだけツールを形づくったか?
  • パラレルエージェント — 複数のエージェントを同時に使っているのか、それとも1回ずつ順番にチャットしているのか?
  • バックグラウンド作業 — 放置して実行するために委譲したタスクか、それとも毎ターン監視(世話)しているのか?
  • ツールの幅 — MCPサーバー、スキル、プラグインが環境にどの程度配線されているか?
  • 計画 — Planモード、構造化された /spec / /plan のワークフロー、あるいはすぐにファイル編集へ飛びつくのか?
  • 反復(リピート)— スキルの幅とスキルの深さは別々に測ります。実際には使っていないのに、スキルを大量にインストールしている人がかなりいます。
  • カスタムスキル — 何度も行うことについて、自分で再利用可能なワークフローを書いたのか?
  • マルチタスキング — AIを並行して動く「チーム」として扱っているのか、それとも単一のチャットウィンドウとして扱っているのか?

加えて、Codex と Cowork 向けに後から私たちが追加した、ツール固有の項目がいくつかあります。

これらはすべて、セッション活動から観測できます。自己申告は不要で、ゲーム化できる面接の回答も不要です。

そこで、無料の指標を作りました

このフレームワークを AIQ Rank に落とし込みました。AIQ Rank は、あなたが使っているAIコーディングツール(Claude Code、Codex、Cursor、OpenCode、Cowork)のローカルセッション活動を読み取り、11の次元すべてについて 0〜1000 でスコア付けします。これはクレジットスコアのようなものだと思ってください。ただしAIの流暢さ(AIフルーエンシー)向けです。

私たちはこれを無料にしました。ローカルで動きます(トランスクリプトは決してあなたのマシンから出ません)。数値、次元ごとの内訳、そして共有したい場合のプロファイルURLが得られます。

スコア自体がフックになります。そして内訳が、実際に役に立つ部分です。私たちが初めて自分たちで試したとき、私たちを驚かせた次元は、期待していた強みではありませんでした。むしろ、気づいていなかった弱みでした。

これで何をするのが良さそうか

チームに対して手早い健全性チェックをしたなら — トークン消費で上位10%、AIQ Rank で上位10% — その重なりは、あなたが想像しているより小さいはずだと思います。トークンを多く使う人の中には、まだチャットモードであらゆる問題を総当たりしている人がいます。消費が少ない人の中には、ひっそりとスキルを作り、MCPを配線し、Planモードを学び、パラレルエージェントを動かしている人がいます。

そのギャップこそが面白いところです。トークン消費が悪いデータだからではなく、「誰が上手いか」という別の問いだからです。

自分たちのチーム同士でこの比較をしたいなら、AIQ Rank にはプライベートなチームのランキングがあります。招待制で、スコアの集計はあなたのグループだけが見られるボードに反映されます。トランスクリプトは依然として、誰のマシンからも外へ出ることはありません。

あなたはどう思いますか?

どんな変更/改善をしてほしいか教えてください。ぜひ試してみてください! これらのパラメータに賛成ですか、それとも反対ですか?

aiqrank.com から1つのコマンドを入力してください。実行にかかるのはだいたい1分です。建設的なフィードバックをぜひお願いします!