AI Navigate

llama.cpp Deepseek Sparse Attention(DSA)実装のテストを手伝ってくれる方を募集しています(GPUリソースに余裕のある方)

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は llama.cpp Deepseek Sparse Attention(DSA)の初期の概念実証実装を持っており、それが正しく機能することを検証するための完全なベンチマークを求めている。
  • 密なアテンションと疎なアテンションの性能差は微妙で、非常に複雑な問題でのみ顕在化するため、ベンチマークが不可欠である。
  • DeepSeek v3.2 Speciale の Q8_0 で、llama.cpp の deepseek-dsa ブランチ内の lineage-bench を実行するには、少なくとも768 GB の VRAM を搭載したマシンを数時間利用できる必要があり、GGUF を用いた sglang FP8 テストと比較する。
  • Vast.ai を 8x RTX PRO 6000 で試したところ、インデックス用テンソルを収める際に CUDA OOM エラーが発生し、より長い実行時間またはより強力なハードウェアが必要であることが示された。
  • ベンチマーク作業は直接アクセスする形でも、人間の代理を介して実施する形でも可能です。

初期の概念実証実装が準備できており、これが正しく動作するかを確認したいと考えています。残念ながら 密なアテンションと疎なアテンションのモデル性能の差は微妙で、非常に複雑な問題でしか見えません。基本的には、実装が正しく動作することを確認するには完全なベンチマーク実行が必要です。私は この作業を実行するには何百時間もかかるわけではなく、Epyc 9374F + RTX PRO 6000 ワークステーションでは実行できません。何百時間もかかるからです。

私が必要としているのは、少なくとも768 GBのVRAM(またはそれ以上)を数時間利用できるマシンへアクセスすることです。DeepSeek V3.2 SpecialeのQ8_0で、私の llama.cpp deepseek-dsa ブランチの密なアテンションと疎なアテンションを用いて lineage-bench を実行し、完全な実行または限定の lineage-256/lineage-512 のいずれかを行い、sglang FP8 テストの結果と比較します。直接実行する場合も、人的プロキシを介して実行する場合もあります。GGUFが準備できています。

vast.ai でレンタルした 8x RTX PRO 6000 のインスタンスを試そうとしましたが、この構成でインデクサー テンソルをモデルに組み込む際に問題が発生しました(CUDA OOMエラー)。したがって、これを調査する時間をもう少し取るか、より強力なハードウェアが必要です。すでにこのために十分なお金を使い果たしたと感じています。

投稿者 /u/fairydreaming
[リンク] [コメント]