| Qwen3.5-27b における Aider ベンチマークは、bf16 のモデル重みと fp8、および bf16 と fp8 の KV キャッシュという4つの組み合わせで実施しました。各ベンチマークは10回繰り返されました。観測された分散は統計的に有意ではありません。 よくある質問:
[リンク] [コメント] |
Gwen3.5-27b 8ビット対16ビット、10回実行
Reddit r/LocalLLaMA / 2026/3/19
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Aiderベンチマークは Gwen3.5-27b を、重みの組み合わせを bf16 対 fp8、KVキャッシュ設定を bf16 対 fp8 の4通りでテストし、各設定を10回実行して量子化がエージェント的コーディングに与える影響を評価した。
- 実行間の分散は統計的に有意ではなく、選択した実験設計を考えると結果は安定していることを示唆している。
- このベンチマークは224のタスクを含み、典型的な実行では約2,375,980個のプロンプトトークンと613,762個の応答トークンを使用し、1タスクあたり平均13,300トークンになる。
- 著者は、この設定ではfp8量子化がbf16と同等の性能を発揮することもあり得ると指摘する一方、fp8キャッシュは長いコンテキスト長で崩れる可能性があるため、今後4ビット/5ビットの構成を検討する予定だ。