じゃあテキストではなぜこれをやらないのでしょうか?ローカルアシスタントに送るメッセージをタイプするのに私はだいたい20秒ほどかかって、そのあと処理を始めて、返信してきます。テキストのストリーミングを使えば、その分の時間は吸収できたはずです。とはいえ、これのベンチマークは難しいです。実際には速度は向上しないのに対して、知覚される速度が向上するからです。ですが、ローカルのLLMが、APIベースのフロンティアモデルとほぼ同じくらい速く返しているように感じさせるようになります。皆さんはどう思いますか?私はMLXで、Qwen 3.5 32b a3bにこれを使っています。
[リンク] [コメント]




