先日ヒップファイアを見つけました。これはすべてのAMD GPU(最新のものだけではありません)に焦点を当てた、まったく新しい推論エンジンです。
特殊なmq4量子化手法を使用しています。hipfireの作者はhuggingface上でモデルを作って出し続けています。
量子化について十分に知識がないので、品質の面でこれらの量子化がどれほど良いのかは分かりませんが、RDNA3の愛好家としては、AMDが注目を集めていることを嬉しく思います。
Localmaxxing は新しいLLMベンチマークサイトで、hipfireの推論でかなり劇的なスピードアップが示されています。
編集:hipfireと言えばよかったです。これがAMDと公式に関係しているとは思いません。
[リンク] [コメント]




