すごい、もしみなさんがバックグラウンドのエージェントや重いツール呼び出しのパイプラインを動かしているなら、新しいDeepseek v4 flashモデルを今すぐテストする必要があります。
背景として、私はオープンソースのエージェント基盤を維持しています。基本的には、バックグラウンドでのPython実行とSQLiteの状態管理を扱う常駐デーモンです。うちのエージェントは24時間365日で、1時間に数百回もツール呼び出しをすることがあるので、APIコストがだいたい最大のボトルネックになります。
昨日までは、Deepseek 3.2が私たちの主要な低コストモデルでした。価格が狂っているほど安くて、SOTAモデルと同等レベルの性能。ですが、今はルーティングにv4 flashをホットスワップしたところで、正直かなり度肝を抜かれています。
私がすぐに気づいたことがいくつかあります:
ツール呼び出しがかなり鋭いです。変なMarkdownのラッパーを生成したり、キーを落としたりせずに、複雑なJSONスキーマをネイティブにきっちり当てています。
それに、私たちは大量の連続コンテキストの詰め込みもやっています(Webデータをスクレイピングして、それを要約し、SQLiteに保存する)。それでも、高いコンテキスト負荷があっても話の流れを失いません。しかもこれ、3.2より文字通り安いです。
また、追加の“賢さ”が必要なエージェントにはGemini 3.1 proも使っていますが、v4 proがそれを置き換える可能性もありそうです。
これをどんなアーキテクチャに組み込んでいるのか気になっている人がいれば、私たちが接続しているのはオープンソースのリポジトリで、Gobiiと呼ばれています。とはいえ、正直に言うと私は単に誇大広告(hype)を検証しにここにいます。私たちは、v4 flash + proをオーケストレーションスタック全体のデフォルトにするつもりです(より複雑なワークロードにはproを使います)。
他にも、JSON/ツール呼び出しの信頼性についてベンチマークしている人はいますか?同じような“つまずき”が見えてますか?
[link] [comments]




