初期の概念実証実装が準備できており、これが正しく動作するかを確認したいと考えています。残念ながら 密なアテンションと疎なアテンションのモデル性能の差は微妙で、非常に複雑な問題でしか見えません。基本的には、実装が正しく動作することを確認するには完全なベンチマーク実行が必要です。私は この作業を実行するには何百時間もかかるわけではなく、Epyc 9374F + RTX PRO 6000 ワークステーションでは実行できません。何百時間もかかるからです。
私が必要としているのは、少なくとも768 GBのVRAM(またはそれ以上)を数時間利用できるマシンへアクセスすることです。DeepSeek V3.2 SpecialeのQ8_0で、私の llama.cpp deepseek-dsa ブランチの密なアテンションと疎なアテンションを用いて lineage-bench を実行し、完全な実行または限定の lineage-256/lineage-512 のいずれかを行い、sglang FP8 テストの結果と比較します。直接実行する場合も、人的プロキシを介して実行する場合もあります。GGUFが準備できています。
vast.ai でレンタルした 8x RTX PRO 6000 のインスタンスを試そうとしましたが、この構成でインデクサー テンソルをモデルに組み込む際に問題が発生しました(CUDA OOMエラー)。したがって、これを調査する時間をもう少し取るか、より強力なハードウェアが必要です。すでにこのために十分なお金を使い果たしたと感じています。
[リンク] [コメント]
