ローカルのエージェントワークフローで許容できる最低の性能（t/s）はどれくらい？

Reddit r/LocalLLaMA / 2026/4/25

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

Redditで、ローカルのエージェントワークフローにおいて許容できる最低のトークン毎秒（t/s）を尋ねる投稿がありました。
投稿者は、RTX A6000上でllama.cppにQwen3.6-27B-Q6_K_L（200Kコンテキスト）を動かしつつpi.devを接続したところ、約26 t/sが出て「意外と使える」と述べています。
さらに、Claude CodeをAnthropicに接続したときの体感も同程度だとしていますが、現時点では比較的単純なプロンプトで試した段階です。
投稿者は、Brave Search APIも併用しながらローカルエージェント構成をさらに試しているところです。

ローカルエージェントのワークフローにおいて、あなたが許容できるトークン/秒（tokens per second）の最低量はいくらだと思いますか？

私はこれまで、pi.dev を、RTX A6000 上で 200K のコンテキストを動かしている llama.cpp インスタンス（Qwen3.6-27B-Q6_K_L）に接続しようと試しています。だいたい 26 t/s 程度で、意外なほど実用的です。同程度のユーザー体験は、Anthropic に接続した Claude Code でも得られます。ただ、ここまでのところ比較的単純なプロンプトで遊んでいるだけです。今は Brave の検索 API を試しています。

投稿者 /u/MexInAbu
[リンク] [コメント]

Black Hat USA

AI Business

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

note

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

note

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136

note

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

note

ローカルのエージェントワークフローで許容できる最低の性能（t/s）はどれくらい？

要点

関連記事

Black Hat USA

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

日常業務に入れる | おじの解説 | 📗 AIを組織で回す技術 043

仮に有料noteが売れた時のご褒美をAI（Gemini）に選ばせてみたら、歩いた軌跡を思い出せる内容で、初心に戻ることが出来た。｜夜のAI対話録#13｜生成AI｜コラム｜Gemini｜

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ ＃136

なぜ一流ライターとエンジニアはChatGPTよりClaudeを選ぶのか｜月$20で生産性3倍化｜Opus 4.7・Sonnet 4.6・Haiku 4.5完全攻略【2026年4月最新】

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ツール検証のつもりで漫画を描いたら、ChatGPTだけで4ページ完走してしまった｜おはようカノジョ＃136