Strix Halo(Ryzen AI Max+ 395)のコンテキスト長の増加に伴う性能テストを検証しました

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • AMD Strix Halo 128GB システム上で、ローカルの llama.cpp モデルのデコードスループットとプリフィルスループットが、プロンプトのコンテキストが拡大するにつれてどのように変化するかを測定するためのベンチマークプロジェクトを作成しました。
  • 目的は、デコード速度が低下するコンテキスト長を特定し、同じハードウェア上でのモデル間比較をより容易にすることです。
  • このツールは、ローカルの llama.cpp サーバーからモデルを取得し、複数のモデルを実行させ、コンテキストを増やしていく各バケットでベンチマークを行い、結果を CSV に出力してダッシュボードから閲覧できるようにします。
  • テスト環境は、distrobox 環境下で、AMD Ryzen AI Max+ 395、Radeon 8060S、128GB RAM、ROCm 7.2 を使用しています。
  • 著者は、ベンチマーク手法、追加の指標、Strix Halo/ROCm の調整アイデア、ダッシュボードの改善案についてフィードバックを求めており、結果を別途共有する場合があります。

こんにちは、皆さん、

Strix Haloマシン(GTR9 PRO)がローカルLLMの長いコンテキスト長にどれほど適しているか、という多くのテスト動画や投稿をたくさん見かけました。

そこで、コンテキスト長が増加するにつれてローカル llama.cpp モデルがどう動作するかを、AMD Strix Halo 128GB マシン上でテストする小さなベンチマークプロジェクトを作成しました。

ベンチマーク結果サイト
https://bluepaun.github.io/amd-strix-halo-context-bench/index.html?lang=en

リポジトリ:

https://github.com/bluepaun/amd-strix-halo-context-bench

主な目標はかなりシンプルでした:

デコードスループットプリフィルスループットを測定する

• プロンプトのコンテキストが大きくなるにつれて性能がどのように変化するかを確認する

• デコード速度が 10トークン/秒 を下回る点を見つける

• 同じマシン上で複数のローカルモデルを比較しやすくする

動作内容:

• ローカル llama.cpp サーバーからモデルを取得する

• ターミナルUIで1つ以上のモデルを選択できる

• 増加するコンテキストバケットに対してそれらをベンチマークする

• 結果をCSVへ段階的に書き込む

• 結果を閲覧するための小さなGitHub Pagesダッシュボードを含む

このリポジトリで使用したテストプラットフォーム:

AMD Ryzen AI Max+ 395

AMD Radeon 8060S

128GBのシステムメモリ

• ROCm 7.2 distrobox環境に基づくStrix Haloのセットアップ

このようなシステムでは、単一の「最大コンテキスト」数値だけよりも、実用的な指標の方が重要だと考えたため、作成しました。

この種のシステムでは、本当に重要なのは次の点です:

• 10K / 20K / 40K / 80K / 100K以上でのスループットの実用性の変化

• 事前読み込みがどれだけ速く低下するか

• ロングコンテキスト推論が対話的でなくなるポイント

Strix Halo、Ryzen AI Max+ 395、または他の大容量メモリのローカル推論環境をテストしている場合、比較や提案に非常に興味があります。

フィードバック歓迎 — 特に以下について:

• より良いベンチマーク方法論

• 記録するのに有用な追加指標

• Strix Halo / ROCmのチューニングアイデア

• ダッシュボードの改善

もしご関心があれば、いくつかのベンチマーク結果を別途公開することもできます。

投稿者 /u/Far-Jellyfish7794
[リンク] [コメント]