設定
- CtxSize: 131,072
- GpuLayers: 99
- CpuMoeLayers: 38
- Threads: 16
- BatchSize/UBatchSize: 4096/4096
- キャッシュタイプ K/V: q8_0
- ツール コンテキスト: file mode(tools.kilocode.official.md)
| 指標 | M モデル | XL モデル | 差 |
|---|---|---|---|
| 平均 Tokens/sec | 28.92 | 29.78 | +0.86(+3.0%) |
| 中央値 Tokens/sec | 30.96 | 32.08 | +1.12(+3.6%) |
| 平均 Wall 秒 | 108.03s | 99.93s | -8.10s(-7.5%) |
| 平均 出力 Tokens | 3,031.8 | 2,895.8 | -136(-4.5%) |
| 平均 入力 Tokens/sec | 50.20 | 55.96 | +5.76(+11.5%) |
| 平均 デコード Tokens/sec | 75.89 | 76.44 | +0.55(+0.7%) |
最初の1回目は約33%遅いです。理由は、私のコードにバグがあって初期化(開始)時間が含まれてしまっているからです。ご存じのとおり、moeモデルではストレージからRAMへ渡す必要があります。これを打ち消そうと思って5回実行してみましたが、それでも含まれてしまいました。なぜなら、現実的にはそうやって使うからです(オンにする、1回使う、何かを実行するためにオフにする、など)。
[link] [コメント]




