私たちはチャットシステムで俳句(haiku)を使っています。というのも、それは主にツール呼び出しと、それらの要約に関するものだからです。しかし、入力スキーマがかなり複雑なツールがたくさんあり、gemmaのようなものではうまくいきませんでした。そこで俳句を選びました。俳句はかなり良いです。
今日はdeepseek v4 flashの評価(evals)を、俳句と比較して実行しましたが、かなり見事に勝っています――ただし、いくつかプロンプトの調整をしただけです。Flashはとても積極的で、非常に正確に多くのツール呼び出しを行い、そして不思議と「とても賢くて知的なモデル」という感覚を与えてくれます。ベンチマークを見る限り、おそらくsonnetレベルの話なのだと思いますが、価格を見るとHaikuよりも安いです。また、sonnetと比較した評価は持っていないので、判断できるのは俳句との比較だけです。
[link] [comments]




