DeepSeek v4 Flashを大規模なコード変更の評価で試したところ、ツール利用精度が驚異的だった

Reddit r/LocalLLaMA / 2026/4/24

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • テスターはDeepSeek v4 Flashを評価し、文脈管理、ツール利用精度、思考トレースはいずれも非常に良好だったと報告しています。
  • 複数ツール呼び出しや複雑なネイティブのツール定義に対しても混乱せず、複数回の実行で約100回以上のツール呼び出しを行っても問題がなかったとされています。
  • テスト実行中はツール呼び出しのエラーが1件も見られず、大量のファイルを同時に編集するケースでも安定していたと述べています。
  • ただし不満点として、トークン生成が遅く、計画・実行のために思考に時間がかかり(数分程度)、全体の完了まで時間がかかる点が挙げられています。
  • さらに、DeepSeekがH2 2026に向けて大きな処理能力を追加投入する計画があるという話に触れ、今後への期待を示しています。
いくつかの大きなコード変更の評価とともにDeepseek v4 flashを試しました。精度の観点でとにかく強烈に効いてます!

v4 flashでいくつかテスト作業をしてみました。コンテキスト管理、ツール利用の正確さ、思考トレースはいずれも非常に良好に見えました。私がテストした数少ないオープンウェイトのモデルの1つで、複数のツール呼び出しや複雑なネイティブツール定義で混乱することがありません

複数回の実行で、少なくとも100回以上のツール呼び出しを行ったはずです。1回もエラーはなく、たくさんのファイルを同時に編集しているときでもそうでした

欠点:トークン生成が遅く、考えるのに時間がかかります(実際には示していませんが、計画と実行のために数分間考えていました)

DeepseekはH2'26に向けてさらに多くの能力をオンライン化していると読みました。楽しみにしています、LFG

submitted by /u/Comfortable-Rock-498
[link] [comments]