llamacpp の引数を最適化して最速の推論(プロンプト処理とトークン生成速度)を自動化する方法はありますか?
おそらく私がまだ理解できていないだけですが、llama-bench の使用は煩雑に感じます。通常は llama-fit-params を用いて GPU と RAM 全体でのモデルの最適な分割を特定しますが、llama-bench には llama-fit-params が搭載されていません。そして llama-fit-params の結果を llama-bench に貼り付けることはできますが、コンテキストウィンドウのサイズを調整するたびにそれを調整するのは面倒です。
この一連の作業をもっと柔軟に行う方法を見つけた人がいるか、知りたいです。
[リンク] [コメント]




