Qwen3 4Bがコード課題でクラウド・エージェントを上回る—Mahoraga研究に基づく[R]

Reddit r/MachineLearning / 2026/4/28

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この記事では、文脈バンディット(LinUCB)を用いて、過去のルーティング結果から学習しながらローカルAIエージェントとクラウドAIエージェントの間でタスクを振り分けるオープンソースのオーケストレータ「Mahoraga」が紹介されている。
  • 16GBのMacBook Pro上で8つのエージェントを使い、コード関連の192タスクをベンチマークしたところ、ローカルのQwen3 4Bがコード生成・リファクタリングでクラウド・エージェントを大きく上回った。
  • 評価は4層のヒューリスティック品質スコアリング(新規性比率、構造チェック、埋め込み類似度、長さ比率)を用い、APIコストゼロかつLLM-as-judgeなしで行われた。
  • 追加結果として、あるモデルは高速でも品質が落ちる場合があり(例:LFM2)、また推論オーバーヘッドのためデフォルト運用には遅すぎるモデルもある(例:DeepSeek-R1)。
  • 著者はスコアリング設計の限界も指摘しており、セキュリティ関連の指標は特有のシグナルを十分に捉えられず、エージェント間で差が出にくかった。
Qwen3 4B outperforms cloud agents on code tasks—with Mahoraga research [R]

MLの皆さんこんにちは。私はMahoragaというオープンソースのオーケストレーターに取り組んでいて、文脈バンディット(LinUCB)を使って、ローカルおよびクラウドのAIエージェントにタスクをルーティングします。どの判断からも学習していきます。

背景(スキップ):私は2025年後半になってからようやく、AIを自分のワークフローに組み込み始めました。そのため、当初はクレジットもなく、手がすっからかんの状態で参入しました。結果として、ローカルモデルだけを使っていました。しかし、多くの学生や社員は、所属機関からタスク作業用のクレジットを受け取っています。(私はclaudeをもらって、うれしい気持ちです)クレジットが尽きたときに、モデル間を完璧に切り替えられるようにしたくて、オーケストレーターを作りました。以前はclaudeを、チャットボット/完成ワークフローエンジンのように使うことが多かったのですが、それだとコンテキストウィンドウ、推論などの理由で、ローカルモデルを使いにくい状況でした。Opus 4.5の「オープンソースのスーパーパワー」が、毎月私の使用量を食い尽くしていました。

でも今は、あれはclaude、あるいはAI全般の効果的な使い方ではなかったと気づいています。私はclaudeを、重い計画・ブレストの両方と、軽微なタスクの両方に使っていました。コード生成に特化したタスクはどうでしょう? コード生成は比較的制約の多いタスクで、正解があり、出力も短い。クラウドを必要としないタスクなら、ローカルモデルでも十分に戦えるはずです。そこでMahoragaを、適応可能なルーターに切り替えました。

私は、16GBのMacBook Pro上で、8つのエージェントに対して192タスクを実行しました(ローカルのOllamaモデル4つ、クラウドのCLI4つ)。ラウンドロビンを強制して、すべてのエージェントがすべてのプロンプトを受け取るようにしました。品質は、4層のヒューリスティック・システム(novelty ratio、構造チェック、埋め込み類似度、長さ比)でスコア付けしています。評価にAPIコストはゼロで、LLM-as-judgeもありません。

強制ラウンドロビン。バンディットによる選択なし。4層ヒューリスティックによる品質スコアリング。ハードウェア:MacBook Pro 16GB Mシリーズ(2024年11月)。

notninkモードのQwen3 4Bが、33.8 t/sおよび平均レイテンシ6.1sでコードとリファクタを支配しています。クラウドのエージェントはコードでは0.650前後にまとまっています。 ローカルモデルは単に安いだけではなく、このタスクのクラスに対しては測定可能な意味で、実際により優れています。

その他の発見:

  • LFM2は77.1 t/sを達成しましたが、Qwen3 4Bに対して約5ポイントの品質をトレードオフしています
  • DeepSeek-R1は16GB環境でタスクあたり平均123.5秒です。推論のオーバーヘッドが大きく、デフォルトとしては使えません
  • セキュリティスコアは、すべてのエージェントで0.650にフラットでした。これは私の人為的ミスによるものです。スコアラーがセキュリティ固有のシグナルをうまく捉えられていません。

バンディット(LinUCB)は、200タスクのシミュレーションにおいてサブリニアな後悔(β=0.659)を達成する唯一のルーティング戦略です。つまり、実際に収束しています。

ルーティングは2段階で動作します。まずキーワード分類器がタスクを能力バケット(コード、計画、リサーチなど)に入れ、次にバンディットがそのバケット内で最適なエージェントを選びます。9次元のコンテキストベクトル、セッション間で持続する状態、互換性行列からのウォームスタート。

すべてローカル推論、すべて無料。クラウドへのエスカレーションは存在しますが、リトライ時にのみ発火します。ローカルモデルでうまく処理できるのに、なぜクラウドにお金を払う必要があるのでしょう?

フィードバックや意見があれば歓迎します。辛口でも大丈夫です。このサブレディットでやり取りしてくれる皆さんに感謝しています。今後もこれに取り組み続けます。

スター(高評価)もらえると嬉しいです:github.com/pockanoodles/Mahoraga

submitted by /u/Own-Professional3092
[link] [comments]