TokenmaxxingはAI戦略ではない
AIの値札を確認する前に、それに見合うかを確かめよう
AIにはいくらかかるのか?これは単純な問いであり、同時に重要な問いでもあります——答えは企業の行く末を決め、社会のかたちを形づくるからです。しかし、その問いは、追加の文脈なしには、意味のある形では答えられません。
考えられる返答の一つは「高すぎる」です。スタンフォード大学のHAIによる2026年版人工知能インデックス Report によれば、米国の民間AI投資は2025年に2,859億ドルに達しました。その資金には経済的な利益もありますが、環境資源、ユーティリティ、そしてコミュニティに対する負荷も増やします。
同報告書が述べているように、「AIデータセンターの電力容量は29.6GWへと増加し、ピーク需要時のニューヨーク州と同等であり、GPT-4oの推論における年間の水使用量だけでも、飲料水の必要量は1,200万人分を上回る可能性がある」
さらに、人間の能力にかかるコストもあります。プロンプトのスロットマシンに過度に依存するせいでスキルが衰えたり、そもそも育たなかったりする場合です。
しかし、それを短期間で測定するのは難しい。そして、現在の米国政権が規制による抑制や公共の懸念に関心を示していないことを考えると、政府と業界が市民の不安に向き合わざるを得なくなるまで、財務上の細部に焦点を当てるほうが、むしろ簡単かもしれません。
まず着目できるのはトークンです。現時点でAIモデルの入力と出力を販売するための基本単位です。トークンの価格は、AIサブスクリプション契約を使う開発者の頭の中でも大きな関心事になっています。というのも、AnthropicやGitHubのようなプラン提供事業者が、トークンで補助されたサブスクリプションから、従量課金型の利用へと顧客を押し出しているからです。
機械学習研究者であり、法務系スタートアップのIqidisでAI責任者を務め、さらにChocolate Milk CultというAIコミュニティ団体の創設者でもあるDevanshは、今年の初めに公開されたa postで計算を行いました。答えは、非常に特定の状況において、1百万トークンあたり約0.0038ドルです。
これは、推論にかかる基礎コストで、Nvidia H100 GPUを、1時間あたり2.50ドルでレンタルし、100%の稼働率で185トークン/秒を生成した場合の料金です。
しかしDevanshが指摘するように、誰も100%の稼働率では運用しません。稼働率30%なら価格は約0.013/Mトークン、10%なら約0.038/Mトークンになります。
Anthropicは現在、最新モデルであるOpus 4.7について、入力が課金で5ドル/Mトークン、出力が25ドル/Mトークンです。GoogleのGemma 4 26B A4Bでは、執筆時点の加重平均の入力価格が0.096ドル/Mトークンで、OpenRouter経由のものです。
異なるハードウェア、異なる時期の価格、異なるエネルギーコスト、異なるモデル、異なる稼働率で数値を当てはめれば、結果は変わります。
「研究所(ラボ)が提供しているAPIあたりのコストを単純に見れば、それは、(西側の)ラボがトークンにかけているコストのかなり良い指標になります」とDevanshは電話インタビューでThe Registerに語りました。
「Anthropicが50%程度の粗利率を取りにいこうとしている、という人もいます。でも実際には、トークンのコストというものは実に多くの変数が一つに折りたたまれています。モデルがあり、そのモデルの研究があり、さらに人々が見ていないモデルの継続的な更新もある。だからそれらをすべて織り込む必要があるんです。見るべきなのは、1回の呼び出しにおける推論コストだけではありません。そもそも、それはシステムを捉えるにはあまり良い見方ではありません」
Devanshによれば、組織はトークンの“特定のコスト”に焦点を当てない傾向があります。顧客が価値を感じるサービスを提供することに集中しているからです。
「法務の多くの仕事では、実際にコストを顧客に転嫁できて、顧客は文句を言わないことが多い。やったこと、どうやってやったのか、という透明性を見たいからです」と彼は言いました。「だから、その観点では、コストを正当化できる限り、どれくらいかかるかへの不安は少ない。…一貫して価値を提供できているなら、コスト予測はそれほど心配する必要がないと思います」
MetaやShopifyのような企業は、トークン使用量を主要業績評価指標(KPI)として扱うことで見出しを飾り、従業員もAIツールを大量に使うことで自分の価値を示そうとしました。これはすぐに費用が膨らむ可能性があり、より意味のあるビジネス指標にはあまり寄与しないかもしれません。
「トークン支出は、生産性と直接相関していますか?」とDevanshは言いました。「もちろん違います。私はこの研究を非常に徹底的に行いました。…以前は、ソースコードの行数や、タイプした単語数のような“愚かな”生産性指標がありました。これは、その“愚かさの時代”における最新のものに過ぎないと思います。中間管理職はいつも自分を正当化し、頭を使わなくても人を順位付けできるやり方を見つけようとするんじゃないでしょうか」
ただしDevanshによれば、LLMに関する問題の一つは、私たちがそれを最善の形で使う方法をまだ把握できていないことです。だから、人々にとにかくトークンを使ってもらい、新しい種類のワークフローが生まれて“何がうまくいくか/いかないか”のシグナルになる可能性に期待する価値はあるかもしれません。
- Anthropicは、より賢くしようとしてClaudeを“バカにした(劣化させた)”ことを認める
- Claude Opus 4.7が、やり過ぎの“問い合わせ取り締まり役”になってしまったと開発者が不満
- 国防総省は、無人ドローン計画を自律型潜水機で薄めたい
- Microsoft、…判読しにくいメッセージでリモートデスクトップのセキュリティを強化
ITコンサルティング会社Future Tech EnterpriseのCEOであるBob Veneroは、The Registerに対し、自社は主にフォーチュン100の顧客と仕事をすることが多く、その多くが「何を達成したいのか」を考えずに大金を投入するようなAIプロジェクトを立ち上げてきたと語りました。
Veneroは、同社が顧客と関わる際の目的は、望ましいビジネス上の成果を特定することであり、それにはAIが含まれる場合も含まれない場合もある、と述べました。
Future Techが最近ノースロップ・グラマンと行った仕事にはAIが含まれていました。IT部門は、防衛企業が自社のプロジェクトに関連するAIワークロードを運用できるようにするため、Nvidia Enterprise AI Factoryの導入を支援しました。
Veneroは、企業が自社環境におけるAIの影響を評価するのに苦労していること、ROIを測る方法、そしてその技術がどのように役立つのかを見いだすことが難しいことを挙げました。
「だから、彼らがどこにお金を使いたいのか、そして最終的にどんな成果を得るのかを特定するための事前作業がかなり必要になります。特に、コストが6か月前の3倍になっている場合はなおさらです」と彼は述べ、「Ramageddon」――AI計算(コンピュート)ブームによるRAM不足――を引き合いに出しました。
Veneroは、OpenAIのメモリチップ購入へのコミットメント(SamsungおよびSK Hynixからの購入)と、MicronのようなOEMが高帯域幅メモリ(HBM)へシフトしていることを、現在のRAM危機のきっかけだと指摘しています。AI導入のROIの計算を難しくしているのは、すべてのものがより高価になったからだ、と彼は言います。
クラウド事業者は、従量課金のような形で支援できるかもしれないが、彼にはその点でいくつか懸念があります。
「私はオンプレミス外のAI(オフプレAI)が大好きではありません。私たちの立場からすると、ちょっと怖いんです」
セキュリティ上の懸念はさておき、大規模組織にとってクラウド依存による生産性リスクは大きい、とVeneroは言いました。Microsoft Office 365を例に挙げています。「Office 365は、一度でも落ちたことがないのか? 何度もですよ。そうした障害が本当にたくさん起きている」
クラウド障害によって1分あたり1,000ドルの損失が出るなら、それは受け入れ可能かもしれない、と彼は述べました。「もし1分あたり100万ドルなら、整備すべき統制(コントロール)について考える必要がある。たぶん、それはオンプレミスの解決策になるでしょう」と彼は言いました。
レビューの不十分なコードの投入や、大量のAI利用に伴うインフラへの負荷によって、AIはクラウドの安定性を悪化させている可能性がある、とVeneroは述べました。顧客は「それを確実に見ています。そして、もし見ていないのであれば、私たちが彼らに教えています」
OpenClawの急な人気によって生じたキャパシティ上の課題を踏まえ、Veneroは「人々はこれを自分たちの環境に放り込んで、すごいことになりました。だから、リスクと、それに紐づく3つのリスクの柱について、確実にエコシステムとしての会話をする必要があります」と述べました。
そして彼は、ハイパースケーラー各社は品質を犠牲にしてスピードに注力したことで、この問題に貢献してきたのだと語った。「いまはレースです。誰が勝つのか?誰が最大の成果を持っていくのか?そして皆が、あらゆるものをそれに投げ込んでいる。そしてそれが、この信じられないほどの混乱を引き起こしているのです。」
「私たちがお客様にしてほしいのは、いったん立ち止まることです」と彼は言った。「達成したいことと、その理由を見てください。関連する投資と、それを実行するための適切なタイムラインを確認し、そのうえで、それらの成果を測定してください。」
AIに対して思慮深く、かつ意図的に取り組むことで、AIプロジェクトが本番環境へ投入される可能性は高まります。
ヴェネロは、彼が見てきた企業の中では、AIについて教育を受ける前は、そのプロトタイプのうち実際に導入されるのはおそらく15%程度だろうと述べた。指導が入ると、その数字は45%か50%のような水準になるのだと彼は言った。
「それは非常にユースケース次第です」と彼は言った。「そして、目指している成果を定め、その成果を測定すれば、成功するでしょう。もしそうでなければ、AIそれ自体のためにAIをやっているだけなら、5%にしかなりません。」
AIコストがどうあるべきかを、最初に問うべきではないのかもしれない。トークンを消費することで自分の価値を示さなければならないと感じている一部の従業員のプレッシャーに触れながら、ヴェネロは、問いは「なぜですか?そして何のためにそれを使うのですか?」® であるべきだと述べた。
More about
More about
Narrower topics
- Acquisitions
- AdBlock Plus
- AIOps
- Airbnb
- App
- Application Delivery Controller
- Audacity
- Confluence
- Database
- DeepSeek
- FOSDEM
- FOSS
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grab
- グラフィックス交換形式
- IDE
- 画像圧縮
- Jenkins
- 大規模言語モデル
- 従来技術
- LibreOffice
- 機械学習
- マップ
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイル端末管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- 検索拡張生成
- レトロ・コンピューティング
- Rimini Street
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアのバグ
- ソフトウェアライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディター
- TOPS
- ユーザーインターフェース
- ベンチャーキャピタル
- Visual Studio
- Visual Studio Code
- WebAssembly
- ウェブブラウザ
- WordPress
さらに詳しく
より絞り込んだトピック
- 設備・企業買収
- AdBlock Plus
- AIOps
- Airbnb
- アプリ
- アプリケーションデリバリーコントローラー
- Audacity
- Confluence
- データベース
- DeepSeek
- FOSDEM
- FOSS
- Gemini
- Google AI
- GPT-3
- GPT-4
- Grab
- グラフィックス交換フォーマット
- IDE
- 画像圧縮
- Jenkins
- 大規模言語モデル
- レガシーテクノロジー
- LibreOffice
- 機械学習
- マップ
- MCubed
- Microsoft 365
- Microsoft Office
- Microsoft Teams
- モバイル デバイス管理
- ニューラルネットワーク
- NLP
- OpenOffice
- プログラミング言語
- QRコード
- 検索拡張生成
- レトロコンピューティング
- リミニ・ストリート
- 検索エンジン
- ソフトウェア部品表
- ソフトウェアのバグ
- ソフトウェアライセンス
- スター・ウォーズ
- テンソル処理装置
- テキストエディタ
- TOPS
- ユーザーインターフェース
- ベンチャーキャピタル
- Visual Studio
- Visual Studio Code
- WebAssembly
- Webブラウザー
- WordPress




