Strix Halo（Ryzen AI Max+ 395）のコンテキスト長の増加に伴う性能テストを検証しました

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

AMD Strix Halo 128GB システム上で、ローカルの llama.cpp モデルのデコードスループットとプリフィルスループットが、プロンプトのコンテキストが拡大するにつれてどのように変化するかを測定するためのベンチマークプロジェクトを作成しました。
目的は、デコード速度が低下するコンテキスト長を特定し、同じハードウェア上でのモデル間比較をより容易にすることです。
このツールは、ローカルの llama.cpp サーバーからモデルを取得し、複数のモデルを実行させ、コンテキストを増やしていく各バケットでベンチマークを行い、結果を CSV に出力してダッシュボードから閲覧できるようにします。
テスト環境は、distrobox 環境下で、AMD Ryzen AI Max+ 395、Radeon 8060S、128GB RAM、ROCm 7.2 を使用しています。
著者は、ベンチマーク手法、追加の指標、Strix Halo/ROCm の調整アイデア、ダッシュボードの改善案についてフィードバックを求めており、結果を別途共有する場合があります。

こんにちは、皆さん、

Strix Haloマシン（GTR9 PRO）がローカルLLMの長いコンテキスト長にどれほど適しているか、という多くのテスト動画や投稿をたくさん見かけました。

そこで、コンテキスト長が増加するにつれてローカル llama.cpp モデルがどう動作するかを、AMD Strix Halo 128GB マシン上でテストする小さなベンチマークプロジェクトを作成しました。

ベンチマーク結果サイト
https://bluepaun.github.io/amd-strix-halo-context-bench/index.html?lang=en

リポジトリ:

https://github.com/bluepaun/amd-strix-halo-context-bench

主な目標はかなりシンプルでした：

• デコードスループットとプリフィルスループットを測定する

• プロンプトのコンテキストが大きくなるにつれて性能がどのように変化するかを確認する

• デコード速度が 10トークン/秒 を下回る点を見つける

• 同じマシン上で複数のローカルモデルを比較しやすくする

動作内容：

• ローカル llama.cpp サーバーからモデルを取得する

• ターミナルUIで1つ以上のモデルを選択できる

• 増加するコンテキストバケットに対してそれらをベンチマークする

• 結果をCSVへ段階的に書き込む

• 結果を閲覧するための小さなGitHub Pagesダッシュボードを含む

このリポジトリで使用したテストプラットフォーム：

• AMD Ryzen AI Max+ 395

• AMD Radeon 8060S

• 128GBのシステムメモリ

• ROCm 7.2 distrobox環境に基づくStrix Haloのセットアップ

このようなシステムでは、単一の「最大コンテキスト」数値だけよりも、実用的な指標の方が重要だと考えたため、作成しました。

この種のシステムでは、本当に重要なのは次の点です：

• 10K / 20K / 40K / 80K / 100K以上でのスループットの実用性の変化

• 事前読み込みがどれだけ速く低下するか

• ロングコンテキスト推論が対話的でなくなるポイント

Strix Halo、Ryzen AI Max+ 395、または他の大容量メモリのローカル推論環境をテストしている場合、比較や提案に非常に興味があります。

フィードバック歓迎 — 特に以下について：

• より良いベンチマーク方法論

• 記録するのに有用な追加指標

• Strix Halo / ROCmのチューニングアイデア

• ダッシュボードの改善

もしご関心があれば、いくつかのベンチマーク結果を別途公開することもできます。

投稿者 /u/Far-Jellyfish7794
[リンク] [コメント]

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

日経XTECH

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

Innovatopia

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

ITmedia AI+

PyTorchによる線形回帰のスクラッチ実装と理論設計

Qiita

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

note

Strix Halo（Ryzen AI Max+ 395）のコンテキスト長の増加に伴う性能テストを検証しました

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ

PyTorchによる線形回帰のスクラッチ実装と理論設計

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが「下手な鉄砲」型サイバー攻撃を増やす、足元固めを急ごう

Google Stitch「バイブデザイン」登場—自然言語でUIを作る時代へ

KADOKAWAとnoteが資本業務提携 AI時代の「創作エコシステム」実現へ

PyTorchによる線形回帰のスクラッチ実装と理論設計

Geminiで議事録作成を自動化！日本語の精度を最大化するプロンプトと活用術

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

KADOKAWAとnoteが資本業務提携　AI時代の「創作エコシステム」実現へ