AI Navigate

Gwen3.5-27b 8ビット対16ビット、10回実行

Reddit r/LocalLLaMA / 2026/3/19

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Aiderベンチマークは Gwen3.5-27b を、重みの組み合わせを bf16 対 fp8、KVキャッシュ設定を bf16 対 fp8 の4通りでテストし、各設定を10回実行して量子化がエージェント的コーディングに与える影響を評価した。
  • 実行間の分散は統計的に有意ではなく、選択した実験設計を考えると結果は安定していることを示唆している。
  • このベンチマークは224のタスクを含み、典型的な実行では約2,375,980個のプロンプトトークンと613,762個の応答トークンを使用し、1タスクあたり平均13,300トークンになる。
  • 著者は、この設定ではfp8量子化がbf16と同等の性能を発揮することもあり得ると指摘する一方、fp8キャッシュは長いコンテキスト長で崩れる可能性があるため、今後4ビット/5ビットの構成を検討する予定だ。
Gwen3.5-27b 8 bit vs 16 bit, 10 runs

Qwen3.5-27b における Aider ベンチマークは、bf16 のモデル重みと fp8、および bf16 と fp8 の KV キャッシュという4つの組み合わせで実施しました。各ベンチマークは10回繰り返されました。観測された分散は統計的に有意ではありません。

よくある質問:

  • なぜ100回も実行しないのですか? 各実行には1時間以上かかり、他のプロジェクトもあります。分散はすでに小さすぎますし、たくさん回しても何か小さなことが見つかったとしても、それが実際に意味することにはならないかもしれません。

  • なぜ Aider ベンチマークなのですか? ひどいベンチマークだ!かもしれませんが、私はエージェント的コーディングという特定の目的のために研究しており、ベンチマークは使いやすいと感じています。目的は、特定の量子化を使用することの影響を見つけることであり、モデルを実際の数値で判断することは必須ではありません。

  • 4ビット、5ビットなどをテストできますか? はい、計画しています。

  • コンテキストを何に設定しましたか? 私はコンテキストを設定していません。これは私のベンチマークではありません。私はただのユーザーです。

  • しかし、コンテキストが何かを教えろと要求します!いいでしょう。Aider ベンチマークは224タスクです。通常の実行では、2375980 個のプロンプトトークンと613762 完了トークンを使用しました。それはタスクあたり平均約13300 トークンに相当します。

  • 良いテストにはその文脈が不十分です! もしあなたの用途が Aider の場合はそうかもしれません。しかしいずれにせよ、システムプロンプトにいくつかのノイズを埋めて文脈を人工的に増やす方法を考えています。試してみます。

  • fp8 が bf16 と同等だと主張するとは愚かだ! 私は何も主張していません。ただ事実を共有しているだけです。個人的にはこれを踏まえて fp8 を選ぶつもりかもしれませんが、あなたは自由に選んでください。 また、完全なモデルの使用を制限されている人も多いかもしれませんが、量子化を使用することによってどれだけの影響を受けるかを知りたい人もいます。

  • 知識ベースのテストであれば異なるかもしれません。もしかしたら、そうであるかどうかを調べる別のベンチマークを探すことを検討しています。とはいえ、それは私が興味を持っているからです。私の用途はエージェント的コーディングなので、私にはそれほど重要ではありません。

  • 長い文脈長では fp8 キャッシュが崩れる! それは調査に値する主張です。取り組みます。

  • テスト設定は何でしたか? Linux Podman コンテナの vLLM を用い、NVIDIA RTX 6000 Pro ワークステーションの 600W GPU を使用しました。Aider ベンチマークは別の Podman コンテナで実施しました。

投稿者: /u/Baldur-Norddahl
[リンク] [コメント]