Armはエージェント型AIには新しい種類のCPUが必要だと言う。IntelのDC責任者はそれを買っていない
エージェントが求めるものは、きちんと揃っている
インタビュー ここ数週間で、NvidiaやArmといった面々が、OpenClawのようなAIエージェントを明確に動かすためのCPUを明らかにしてきました。
Intelのデータセンター・グループを率い、昨年の夏までArmのソリューションエンジニアリング部門のエグゼクティブ・バイスプレジデントを務めたKevork Kechichianは、この「新しい」タイプのCPUが、実際にハイパースケーラーや企業が本当に必要としているものなのかには、あまり確信がありません。
彼のコメントは、Armがその完全なプロセッサ設計を発表したわずか数日後に出たものです。AGI CPUと呼ばれる同チップは、エージェント型AIプロセッサとして提案されています。Nvidiaも、一週間前に自社のエージェント型計算プラットフォームを披露しており、こちらは社内のVera CPUによって駆動されます。
何年もGPUやAIアクセラレータが見出しを独占してきた後、CPUがふたたび注目の的になっています。というのも、こうしたエージェント型のフレームワーク、ツール、API呼び出し、そしてAIが生成したコード断片は、何かの上で動かす必要があり、それがGPUではないからです。
先週サンフランシスコで開催されたArm Everywhereイベントで、ArmのCloud AI担当EVPであるMohamed Awadは、既存のx86プロセッサはエージェントを動かすようには設計されていない、と主張しました。そして、ブーストモード、同時マルチスレッディング(SMT)、専門のアクセラレータ、その他のレガシー機能は、今日のワークロードに対しては機能するものの、ダイ面積を消費し、消費電力を引き上げるだけになっている、と述べました。
「周波数を上げれば、ほかに何が増えますか? 消費電力です。これは問題です。これらのブーストモードは、長期間にわたっては持続可能ではありません。チップ全体に対して持続可能ではないんです」とAwadは主張しました。
自然に、Armはその300ワット、136コアのチップがそれらの問題を回避すると主張しています。
「私たちはLotus Notesには対応しません。単にそれをやらないだけです」とAwadは述べました。これは、x86 リアルモードへの言及と思われます。「私たちが注力しているのは、エージェント型データセンターが必要とするものを、まさに正確にそれだけです。性能、規模、そして効率です。」
AGIでArmが使うコアも、現代のx86サーバープロセッサで見つかるAVX拡張に比べると、Single Instruction, Multiple Data(SIMD)機能が意外なほど軽いのです。Armのチップは128ビット幅のベクターユニットを2基備えていますが、これはほとんどのIntelおよびAMDのサーバーチップがサポートする512ビット幅のベクターに対してのことです。
Awadは、SMT(あなたもハイパースレッディングとして知っているかもしれません)が、欠点ではなく利点だと言うために、チップにSMTがないことをあえて売り込みに行きました。
「マルチスレッディングをすると何が起きますか?同じコアに2つのジョブを投げることになります。だからスレッド数が多く見えるんです。」「現実には、I/Oと帯域は2倍にならないので、ボトルネックを別の場所へ移しただけなんです。」
SMTは素晴らしい。だが、それが無いなら最悪だ
ArmのAGI CPU発表で強調された最適化ポイントが、エージェント型の性能に実際に効くものかどうかはともかくとして、IntelのKechichianに関しては審判はまだ下っていません。
ロジックが見えるのは、SIMDの領域です。
「ワークロードを見ると、基本的には従来型のデータ移動のようなものが中心です。オーケストレーションですね。重いSIMDエンジンが無いことが良い方向に働く領域があるのは、そういう点です。」
また、現在のCPU(Armもx86も)には、エージェントのフレームワークに必ずしも必要ではない機能があることも認めています。とはいえ、過去数年にIntelが開発してきた多くのアクセラレータは依然として関連性がある、と彼は主張します。たとえば、QuickAssistは圧縮・伸長・暗号処理のワークロードを高速化するよう設計されています。
- AMDの新しいデスクトップCPUは、16コアすべてからキャッシュがあふれ出す
- Alibabaが、中国の最先端AIモデルを実行するために最適化されたRISC-Vサーバーチップを提供
- ArmはAIの誇大広告合戦を追うために、自社製136コアのAGI CPUを投入
- Nvidiaは、256基のVeraプロセッサを詰め込んだ新しいラックシステムでCPU市場へさらに踏み込む
Kechichianはまた、ArmのSMTに対する反論にもあまり納得していません。 「Reneeは非SMTと最適化について語っていましたが、それより1週間前にJensenはSMTを備えた別のCPUを示しました。」
NvidiaのVera CPUは、同社のカスタムArmベースのOlympusコア88を搭載しており、GPU大手が「空間マルチスレッディング」と呼ぶものを含みます。Nvidiaの説明によれば、この技術は、SMT対応の他のx86チップのように時間分割(タイムスライシング)を行うのではなく、各コアのリソースを実質的に真っ二つに分けるものです。
「私の見立てでは、選択肢があれば、彼らはそれを入れたはずです」と、ArmのAGI CPUについてKechichianは語りました。「しかし選択肢がありません。そしてArmのどのコアにもSMTはありません。」
とはいえ、いくつかのワークロードでは、常にSMTが他よりも大きく恩恵を得てきたことを理解しておくことも重要です。IBMが、1コアあたり4スレッド、あるいは8スレッドという新しい Power CPU を今も出し続けている理由があります。
しかしそのため、IntelとAMDは少なくとも「そもそも1コアあたり複数スレッドをサポートしている部品」については、BIOS設定でSMTをオン/オフしやすくしてきました。
Armの論理なら、Intelはすでにエージェント型CPUを持っている
Granite RapidsのP-core Xeonに加えて、IntelにはSierra Forestと、Clearwater Forestのプロセッサもあります。これらには、非常に高い効率性を持つコアがふんだんに詰め込まれています。
特にClearwater Forestは、ArmのAGI CPUと多くの共通点があります。SIMD拡張は最小限で、12チャネルの高速DDR5メモリを備えた、288の削ぎ落としコアです。
「密度が高く、コア数も多い。そしてSMTが無い」とKechichianは語りました。
Armの製品とIntelのClearwater Forestの類似点について尋ねられると、Awadはそれらの部品は実際には、計算密度を最大化するよう設計されているのだと主張しました。コアあたりのメモリ帯域を挙げつつ、Intelの効率コアの相対的な性能について疑問を呈したのです。
Armの136コア品がコアあたり6 GB/sのメモリ帯域を提供するのは事実です。しかしこれは主に、計算とメモリの比率によるところが大きい。実際、計算流体力学のようなメモリ律速のワークロードでは、コア数を少なめにして大きなキャッシュを好む構成が一般的に見られます。
同じメモリ・サブシステムにぶら下がるコア数が少なければ、通常は(いつもではありませんが)コアあたりの帯域は高くなります。
Intelの最高スペックのClearwater Forest向け部品と比べると、ArmのCPUはコアあたりの帯域で2倍以上を提供します。
現時点ではXeon 6+のSKU一覧の全容はまだ分かっていませんが、Kechichianによれば、その部品は上位では288コア、下位では100台前半といった構成で提供されるとのことです。136コア同士の比較になる場合、Armの優位はおそらくかなり小さくなるでしょう。
ArmのAGI CPUと同じチェック項目が多いにもかかわらず、KechichianによればChipzillaは、エージェント型のユースケースでXeon 6+に大きな需要を見込んでいないそうです。代わりに、パケット処理のようなネットワーク用途でそのチップが最も人気だと聞いています。
Kechichianは、エージェント型ワークロードの需要が時間とともに生まれてくる可能性を、完全には否定していません。®




