Phoronix を読んで、https://gitlab.com/IsolatedOctopi/nvidia_greenboost という、CUDA メモリを DDR4 RAM で拡張して LLM の性能を向上させるとされるカーネルモジュールに言及する投稿に出くわしました。
そのアイデアはよさそうに見えますが、いくつかの点が最適化された設定に役立つかどうかを疑わせました。ollama を用いた性能向上の測定は良いのですが、結局は llama.cpp や vllm を使う方が良いと思います。
あなたはこれについてどう思いますか?
[リンク] [コメント]




