いくつかのsglangパッチ適用と、数え切れないほどの実験の末、4 x RTX 6000 Pro(350Wに制限)で reap-ed nvfp4 バージョンを安定して、しかも高速に動作させることができました。性能と品質にとても満足しています。推論ソフトウェアは、これらのカードに対してまだ最適化不足です。今年または来年の初めには、その真のポテンシャルが明らかになるのではないかと思います。
コンテキスト深度別のスループット
| プリフィル | PP@4096 | TG@512 |
|---|---|---|
| 0 | 2229.0 | 42.03 |
| 4K | 1943.6 | 41.41 |
| 16K | 1558.9 | 39.72 |
| 32K | 1234.2 | 38.19 |
| 64K | 863.5 | 35.87 |
TG ピーク(バーストスループット)
43.00 42.00 40.00 39.00 37.00
opencode に関する全体的な体験は、Sonnet + Claude Code にかなり近いです。100〜200k セッションは安定しています。
今週末はいろいろな並列数(コンカレンシー)の設定を試してみます。
このハードウェアで、もっと良い性能を見た人はいますか?
PS: 並列数(concurrency)= 2 がとても良く機能しました。生成は平均で 65 tps です。
[リンク] [コメント]



