ちょっとしたメモですが、pcieカードアダプタのようなものの1つを使って、v100 32GB SXMモジュール上で、am17anのllama.cppのMTPブランチにより良い結果が出ました。プルしてビルドを一発で行い、llama-serverも引っかかることなく動作しました。
am17anのMTP GGUF、q8_0のkvキャッシュ、そしてキャッシュ制限200kを使ってテストしました。vscode copilotとして動作させています。
MTPなしで29-30 t/s
MTPありで54-55t/s(カードの消費電力制限を150Wに設定)
ただし、50kトークンまで絞り込んだ後は40-45 t/sまで落ちますが、ツール呼び出し、サブエージェントでは非常に良好です。さらに、とても洞察に富んだコードレビューやリファクタリングも行えました。
am17anありがとう!このブランチが成熟していくのを楽しみにしています。これは素晴らしいものです。
[link] [comments]




