私は要約やその他の背景タスク用に、小型で高速なモデルを使うことを試しています。メインモデルはチャットやツール用にGPU上で動かしており(GLM-4.7-flashまたはQwen3.5:35b-a3b)、小型モデル(Qwen3.5:4b)はCPUで単純作業を担当しています。
正直言って、結果には満足しています。これらの新しいQwenモデルは本当に素晴らしく、小型モデルに要約やメモリ抽出を任せても良質な出力が安定して得られます。並列タスクでファイルを読み込んだり調査したりするサブエージェントやエージェント間の作業にも、小型モデルを試してみたいと考えています。
皆さんはこうした用途でどんなモデルを使用していますか?大型・小型モデルで処理を分けている方はいますか?それとも全て1つのモデルでやっているのでしょうか?フルスペックを必要としないタスクに小型モデルを使った成功例を知りたいです。




