こんにちは、皆さん、
Strix Haloマシン(GTR9 PRO)がローカルLLMの長いコンテキスト長にどれほど適しているか、という多くのテスト動画や投稿をたくさん見かけました。
そこで、コンテキスト長が増加するにつれてローカル llama.cpp モデルがどう動作するかを、AMD Strix Halo 128GB マシン上でテストする小さなベンチマークプロジェクトを作成しました。
ベンチマーク結果サイト
https://bluepaun.github.io/amd-strix-halo-context-bench/index.html?lang=en
リポジトリ:
https://github.com/bluepaun/amd-strix-halo-context-bench
主な目標はかなりシンプルでした:
• デコードスループットとプリフィルスループットを測定する
• プロンプトのコンテキストが大きくなるにつれて性能がどのように変化するかを確認する
• デコード速度が 10トークン/秒 を下回る点を見つける
• 同じマシン上で複数のローカルモデルを比較しやすくする
動作内容:
• ローカル llama.cpp サーバーからモデルを取得する
• ターミナルUIで1つ以上のモデルを選択できる
• 増加するコンテキストバケットに対してそれらをベンチマークする
• 結果をCSVへ段階的に書き込む
• 結果を閲覧するための小さなGitHub Pagesダッシュボードを含む
このリポジトリで使用したテストプラットフォーム:
• AMD Ryzen AI Max+ 395
• AMD Radeon 8060S
• 128GBのシステムメモリ
• ROCm 7.2 distrobox環境に基づくStrix Haloのセットアップ
このようなシステムでは、単一の「最大コンテキスト」数値だけよりも、実用的な指標の方が重要だと考えたため、作成しました。
この種のシステムでは、本当に重要なのは次の点です:
• 10K / 20K / 40K / 80K / 100K以上でのスループットの実用性の変化
• 事前読み込みがどれだけ速く低下するか
• ロングコンテキスト推論が対話的でなくなるポイント
Strix Halo、Ryzen AI Max+ 395、または他の大容量メモリのローカル推論環境をテストしている場合、比較や提案に非常に興味があります。
フィードバック歓迎 — 特に以下について:
• より良いベンチマーク方法論
• 記録するのに有用な追加指標
• Strix Halo / ROCmのチューニングアイデア
• ダッシュボードの改善
もしご関心があれば、いくつかのベンチマーク結果を別途公開することもできます。
[リンク] [コメント]

