M5 Max 実際のプリフィル性能向上

Reddit r/LocalLLaMA / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • この記事では、AppleがM5 Pro/M5 Maxについて主張している「ピーク時のGPU AIコンピュートが4倍超」である点が、持続的なスループットというより短時間で電力バースト的な性能を反映している可能性を論じている。
  • AIアクセラレータの挙動と、電力・熱的な余裕の増加が、観測されるピーク向上に寄与しており、その結果が最も強く出るのは短いプロンプトであると示唆している。
  • 追加のユーザーテストに基づくと、性能の「甘いスポット(sweet spot)」は約16Kトークン付近にあり、Apple自身の注記で示されたテスト条件とも整合している。
  • 引用されたテスト構成では、MLX/ mlx-lmを用いて、14Bパラメータのモデル(4ビットの重み、FP16のアクティベーション)により、さまざまな世代のMacBook Proで「最初のトークンまでの時間(time-to-first-token)」を測定し、プリフィル挙動を重視している。
  • 考察では、速度面の優位性は、処理が最初の高電力ウィンドウを超えて長いプロンプトへ拡張されるにつれて、次第に鈍化する可能性があると述べている。
M5 Max Actual Pre-fill performance gains

アップルが「ピークGPU AI演算が4倍」と言っている理由が分かった気がします。大量の電力を数秒間投入するようにしているからです。なので、性能の半分はAIアクセラレータから、もう半分は(あるいはAIアクセラレータがより多くの電力を消費していて)ワット数を多めに突っ込むことで出ているように見えます。

リリース内容:
"各GPUコアにNeural Acceleratorを搭載し、統合メモリ帯域幅を向上させたことで、M5 ProおよびM5 Maxは、従来世代と比べAIにおけるピークGPU演算が4倍超になっています。"

これは短い、バースト的なプロンプトには良いと思いますが、長いプロンプトでは速度向上は薄れていくのではないかと想像しています。

追加でテストしたところ、最適ポイントはだいたい16Kトークンあたりで、偶然にもそれはアップルが脚注でテストしていた値でした:

  1. 2026年1月および2月にアップルが、Apple M5 Max(18コアCPU、40コアGPU、128GBの統合メモリ)を搭載した16インチの量産前MacBook Proシステム、Apple M4 Max(16コアCPU、40コアGPU、128GBの統合メモリ)を搭載した16インチの量産MacBook Proシステム、さらにApple M1 Max(10コアCPU、32コアGPU、64GBの統合メモリ)を搭載した16インチの量産MacBook Proシステム(いずれも8TB SSD構成)で実施したテスト。4ビット重みとFP16アクティベーション、mlx-lmおよびMLXフレームワークを使用した、14 billionパラメータのモデルに対し、16Kトークンのプロンプトで測定した最初のトークンまでの時間です。性能テストは特定のコンピュータシステムで実施されており、MacBook Proの概ねの性能を反映します。

ついでに、推論の合間に10秒のクールダウンを入れて、熱テストも少しやりました。

によって投稿 /u/M5_Maxxx
[link] [comments]