実体験はどうですか? ik_llama を使って動作させることで何か成果がありますか? 今日でも関連性はありますか?
最近、GPU 上でいくつかの大規模モデルを実行してみましたが、結果はまちまちでした。llamacpp の方が安定しているように見え、ik_llama の利得は明らかではありませんでした。対象は glm 5 と kimi 2.5 の量子化です。さらにテストを進める前に、コミュニティに確認したいと思いました。
PS. もしこれについて前向きな経験をしている人がいれば、いくつかのモデルを並べてテストし、結果をここに投稿する予定です。対象は大規模なものなので、フィードバックを得る前に深みにはまらないようにしたいです。
[リンク] [コメント]

