みなさんこんにちは、
評価(Evals)とベンチマークの両方で両者を試して、違いを確認した人はいますか?
私はDGX Spark 128GBのマシンを使っていて、コーディング(Opencode)とチャット(Openwebui)にどのモデルを選ぶべきか検討しています。もちろん速度は35Bのほうが高いはずですが、この2つのモデルについてベンチマークでの品質とパフォーマンスを確認した人はいますか?みなさんの経験を教えてください。
Artificial Analysisでは、コーディング、エージェント型ユースケース、そして総合インデックスにおいて、35Bが122Bより3.5ではなく3.6で上回っています。
ただ、長時間にわたるツール呼び出し(tool calling)のタスクに関しては、3.6の結果よりも悪くなるのではないかと心配しています。また、その「知性」/ IQについてはどうでしょうか。これまでの経験を教えてください。
[link] [comments]



