ローカルエージェントのワークフローにおいて、あなたが許容できるトークン/秒(tokens per second)の最低量はいくらだと思いますか?
私はこれまで、pi.dev を、RTX A6000 上で 200K のコンテキストを動かしている llama.cpp インスタンス(Qwen3.6-27B-Q6_K_L)に接続しようと試しています。だいたい 26 t/s 程度で、意外なほど実用的です。同程度のユーザー体験は、Anthropic に接続した Claude Code でも得られます。ただ、ここまでのところ比較的単純なプロンプトで遊んでいるだけです。今は Brave の検索 API を試しています。
[リンク] [コメント]




