いろいろ試しています。まずは友人の計算機で実験して、彼に借りさせてもらって。次にGemini SDKを使って、600マイルも離れたところから彼のMacBookを盗み続けなくて済むようにしました。もともと自宅のエージェントは、私が試した他のどのモデルでも、その推論能力を超えられなかったため、Gemini-3-Flash経由で動かしていました。
いま私がそれを動かしているスクリプト(複数)は、マルチスピーカーのスマートホームスピーカー構成の再実装です。中心となるLLMハブ(現時点ではRaspberry Pi 5)に対して、いくつかのrasperry pi zeroがスピーカーの衛星として機能しています。さらに、スマホやPCからより複雑なタスクでやり取りするために使っている専用のDiscordボットもあります。画像から情報を必要とするタスク、たとえばコネクタのピン配列のようなものも、手伝ってほしいものがあります。
あらゆる種類のローカルモデルを試し、ツールからのトークン入力やRAGを減らすようにスクリプトを最適化して、ローカルモデルが混乱せずに動くようにしてきましたが、どれも追いつけませんでした。私の主なベンチマークである「買い物に行ったら(walmartに着いたら)私の食料品リストを送って」は、うまく動かすために、合計で6種類のツール呼び出しがしっかり必要になります。具体的には、まずメモリデータベースから、私が言うwalmartがどれかを学習すること(特にRAGが取り出せないと難しい)、次に住所を見つけてそれを専用ツールに入れ、住所または一般的な場所(Walmart、[CITY, STATE])から座標を返してもらって、その該当するwalmartのGPS座標を取得すること、さらにそのリスト用のデータベースの中から食料品リストを見つけること、そしてその座標に近づいたときに、そのリストを見栄えよく整形した形で電話通知のイベントを設定することです。私がそれを実行できるようにすることができた唯一のローカルモデルはGPT-OSS 120bで、それをローカルで動かすためのハードウェアを私は一生持てません。OSSでもやはり混乱してしまい、完全にクリーンなチャット履歴の状態でのみ、なんとかそのタスクを成功させられるという状況でした。なお、私はチャット履歴をユーザー/モデル/ツールの入力・返答で共有する形で30件に制限しています。より長い会話を維持できる力は、攻めたメモリデータベースの更新とRAGによって支えています。
そこでGemma4、特に26B MoEです。walmartのタスクを見事に処理します。他にも他のエージェント的なタスク、私のかなりマニアックなプロジェクトカーに関する変なことの調査、単体のECUクランクトリガーのような話題など、いろいろ試し始めました。作業の多くは専用のプランニングツール経由で行い、CoT/推論をオフにしても高速さを保ちながら、ある種の擬似推論のようなものを提供します。そして、ツール+セマンティックなツール注入で、なるべく的を絞り続けられるようにしています。それでも、こうした助けがあっても、他のどのモデルファミリーも、私が投げているものを最初から扱い始めるところまで到達できていません。
これはすごいです。触ってみると、3 Flashとほぼ同じ感覚です。いくつかの面では少しだけ間抜けですが、それでもだいたいは、やるべきことを全面的に手順立てして指示しないといけない、というレベルではなく、ちょっとだけ背中を押してあげれば済むことが多いです。つまり、他のモデルで私がやらないといけないように、結局全部自分でやる必要が出るほどにはならないんです。
小さくて速いのに、こんな能力があるなんて、本当にただただ感嘆してます。
[link] [comments]



