llama.cpp Deepseek Sparse Attention（DSA）実装のテストを手伝ってくれる方を募集しています（GPUリソースに余裕のある方）

Reddit r/LocalLLaMA / 2026/3/20

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

著者は llama.cpp Deepseek Sparse Attention（DSA）の初期の概念実証実装を持っており、それが正しく機能することを検証するための完全なベンチマークを求めている。
密なアテンションと疎なアテンションの性能差は微妙で、非常に複雑な問題でのみ顕在化するため、ベンチマークが不可欠である。
DeepSeek v3.2 Speciale の Q8_0 で、llama.cpp の deepseek-dsa ブランチ内の lineage-bench を実行するには、少なくとも768 GB の VRAM を搭載したマシンを数時間利用できる必要があり、GGUF を用いた sglang FP8 テストと比較する。
Vast.ai を 8x RTX PRO 6000 で試したところ、インデックス用テンソルを収める際に CUDA OOM エラーが発生し、より長い実行時間またはより強力なハードウェアが必要であることが示された。
ベンチマーク作業は直接アクセスする形でも、人間の代理を介して実施する形でも可能です。

初期の概念実証実装が準備できており、これが正しく動作するかを確認したいと考えています。残念ながら密なアテンションと疎なアテンションのモデル性能の差は微妙で、非常に複雑な問題でしか見えません。基本的には、実装が正しく動作することを確認するには完全なベンチマーク実行が必要です。私はこの作業を実行するには何百時間もかかるわけではなく、Epyc 9374F + RTX PRO 6000 ワークステーションでは実行できません。何百時間もかかるからです。

私が必要としているのは、少なくとも768 GBのVRAM（またはそれ以上）を数時間利用できるマシンへアクセスすることです。DeepSeek V3.2 SpecialeのQ8_0で、私の llama.cpp deepseek-dsa ブランチの密なアテンションと疎なアテンションを用いて lineage-bench を実行し、完全な実行または限定の lineage-256/lineage-512 のいずれかを行い、sglang FP8 テストの結果と比較します。直接実行する場合も、人的プロキシを介して実行する場合もあります。GGUFが準備できています。

vast.ai でレンタルした 8x RTX PRO 6000 のインスタンスを試そうとしましたが、この構成でインデクサーテンソルをモデルに組み込む際に問題が発生しました（CUDA OOMエラー）。したがって、これを調査する時間をもう少し取るか、より強力なハードウェアが必要です。すでにこのために十分なお金を使い果たしたと感じています。

投稿者 /u/fairydreaming
[リンク] [コメント]

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

日経XTECH

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

日経XTECH

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

Dev.to

I Built a Zombie Process Killer Because Claude Code Ate 14GB of My RAM

Dev.to

llama.cpp Deepseek Sparse Attention（DSA）実装のテストを手伝ってくれる方を募集しています（GPUリソースに余裕のある方）

要点

関連記事

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

I Built a Zombie Process Killer Because Claude Code Ate 14GB of My RAM

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

日産、E2Eロボタクシーで「水平分業」 ウーバー・NVIDIAと対テスラ

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

「支払われなければ通報せよ」改正建設業法／日系車部品の失注相次ぐ「bZショック」など、注目記事を音声化しました

State of MCP Security 2026: We Scanned 15,923 AI Tools. Here's What We Found.

I Built a Zombie Process Killer Because Claude Code Ate 14GB of My RAM

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産、E2Eロボタクシーで「水平分業」ウーバー・NVIDIAと対テスラ