| アップルが「ピークGPU AI演算が4倍」と言っている理由が分かった気がします。大量の電力を数秒間投入するようにしているからです。なので、性能の半分はAIアクセラレータから、もう半分は(あるいはAIアクセラレータがより多くの電力を消費していて)ワット数を多めに突っ込むことで出ているように見えます。 リリース内容: これは短い、バースト的なプロンプトには良いと思いますが、長いプロンプトでは速度向上は薄れていくのではないかと想像しています。 追加でテストしたところ、最適ポイントはだいたい16Kトークンあたりで、偶然にもそれはアップルが脚注でテストしていた値でした:
ついでに、推論の合間に10秒のクールダウンを入れて、熱テストも少しやりました。 [link] [comments] |
M5 Max 実際のプリフィル性能向上
Reddit r/LocalLLaMA / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage
要点
- この記事では、AppleがM5 Pro/M5 Maxについて主張している「ピーク時のGPU AIコンピュートが4倍超」である点が、持続的なスループットというより短時間で電力バースト的な性能を反映している可能性を論じている。
- AIアクセラレータの挙動と、電力・熱的な余裕の増加が、観測されるピーク向上に寄与しており、その結果が最も強く出るのは短いプロンプトであると示唆している。
- 追加のユーザーテストに基づくと、性能の「甘いスポット(sweet spot)」は約16Kトークン付近にあり、Apple自身の注記で示されたテスト条件とも整合している。
- 引用されたテスト構成では、MLX/ mlx-lmを用いて、14Bパラメータのモデル(4ビットの重み、FP16のアクティベーション)により、さまざまな世代のMacBook Proで「最初のトークンまでの時間(time-to-first-token)」を測定し、プリフィル挙動を重視している。
- 考察では、速度面の優位性は、処理が最初の高電力ウィンドウを超えて長いプロンプトへ拡張されるにつれて、次第に鈍化する可能性があると述べている。