ローカルのエージェントワークフローで許容できる最低の性能(t/s)はどれくらい?

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • Redditで、ローカルのエージェントワークフローにおいて許容できる最低のトークン毎秒(t/s)を尋ねる投稿がありました。
  • 投稿者は、RTX A6000上でllama.cppにQwen3.6-27B-Q6_K_L(200Kコンテキスト)を動かしつつpi.devを接続したところ、約26 t/sが出て「意外と使える」と述べています。
  • さらに、Claude CodeをAnthropicに接続したときの体感も同程度だとしていますが、現時点では比較的単純なプロンプトで試した段階です。
  • 投稿者は、Brave Search APIも併用しながらローカルエージェント構成をさらに試しているところです。

ローカルエージェントのワークフローにおいて、あなたが許容できるトークン/秒(tokens per second)の最低量はいくらだと思いますか?

私はこれまで、pi.dev を、RTX A6000 上で 200K のコンテキストを動かしている llama.cpp インスタンス(Qwen3.6-27B-Q6_K_L)に接続しようと試しています。だいたい 26 t/s 程度で、意外なほど実用的です。同程度のユーザー体験は、Anthropic に接続した Claude Code でも得られます。ただ、ここまでのところ比較的単純なプロンプトで遊んでいるだけです。今は Brave の検索 API を試しています。

投稿者 /u/MexInAbu
[リンク] [コメント]