長期稼働エージェントでDS4(DeepSeek v4 Flash)を使った体験

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、長時間稼働するツール呼び出し型エージェント基盤でDeepSeek v4 Flashを試したところ、バックグラウンド業務の信頼性が大きく向上したと報告している。
  • ツール呼び出しはより精密になり、複雑なJSONスキーマをネイティブに扱えて、奇妙なMarkdownのラッパーやキーの欠落が起きにくいという。
  • Webスクレイピング、要約、SQLiteへの保存など高コンテキスト処理を長時間行っても、タスクの流れ(“thread”)を失いにくいとされる。
  • v4 FlashはDeepSeek 3.2よりも優れているだけでなく安いとも述べられており、より複雑な一部タスクではGemini 3.1 Proの代替としてv4 Proも検討している。

すごい、もしみなさんがバックグラウンドのエージェントや重いツール呼び出しのパイプラインを動かしているなら、新しいDeepseek v4 flashモデルを今すぐテストする必要があります。

背景として、私はオープンソースのエージェント基盤を維持しています。基本的には、バックグラウンドでのPython実行とSQLiteの状態管理を扱う常駐デーモンです。うちのエージェントは24時間365日で、1時間に数百回もツール呼び出しをすることがあるので、APIコストがだいたい最大のボトルネックになります。

昨日までは、Deepseek 3.2が私たちの主要な低コストモデルでした。価格が狂っているほど安くて、SOTAモデルと同等レベルの性能。ですが、今はルーティングにv4 flashをホットスワップしたところで、正直かなり度肝を抜かれています。

私がすぐに気づいたことがいくつかあります:

ツール呼び出しがかなり鋭いです。変なMarkdownのラッパーを生成したり、キーを落としたりせずに、複雑なJSONスキーマをネイティブにきっちり当てています。

それに、私たちは大量の連続コンテキストの詰め込みもやっています(Webデータをスクレイピングして、それを要約し、SQLiteに保存する)。それでも、高いコンテキスト負荷があっても話の流れを失いません。しかもこれ、3.2より文字通り安いです。

また、追加の“賢さ”が必要なエージェントにはGemini 3.1 proも使っていますが、v4 proがそれを置き換える可能性もありそうです。

これをどんなアーキテクチャに組み込んでいるのか気になっている人がいれば、私たちが接続しているのはオープンソースのリポジトリで、Gobiiと呼ばれています。とはいえ、正直に言うと私は単に誇大広告(hype)を検証しにここにいます。私たちは、v4 flash + proをオーケストレーションスタック全体のデフォルトにするつもりです(より複雑なワークロードにはproを使います)。

他にも、JSON/ツール呼び出しの信頼性についてベンチマークしている人はいますか?同じような“つまずき”が見えてますか?

submitted by /u/ai-christianson
[link] [comments]