ついに到達：Qwen3.6-27B＋エージェント型サーチで、単一3090上のローカルでSimpleQA 95.7%

Reddit r/LocalLLaMA / 2026/5/2

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この投稿は、Qwen3.6-27BをLangGraph/LangChainのエージェント構成とローカルWeb検索と組み合わせることで、単一のRTX 3090＋OllamaバックエンドのみでSimpleQAの非常に高い精度が出せると報告しています。
述べられたローカルベンチマークでは、Qwen3.6-27BがSimpleQA 95.7%（287/300）およびxbench-DeepSearch 77.0%（77/100）を達成し、同条件でQwen3.5-9Bを上回っています。
著者は、これらの結果がクローズドブック（検索なし）精度ではなく「エージェント＋検索」の性能だと位置づけ、Perplexity Deep Researchのような公開されているエンドツーエンドのエージェント系とも概ね同様の傾向だと述べています。
評価では同じQwen3.6-27Bによる自己採点を用い、さらに新しいベースモデルでのベンチ汚染リスク、判定のノイズ、小さなサンプル数、xbench-DeepSearchの言語バイアスといった注意点を強調しています。
要点として、ローカルでのディープリサーチでは、単純なパラメータ数よりもツール呼び出し品質やLangGraphエージェント戦略の寄与が大きい可能性が示唆されています。

LDRのメンテナーです。r/LocalLLaMAコミュニティの強力な支援のおかげで、LDRはかなり遠くまで進みました。しばらく報告していなかったのは、ローカルLLM研究の主要な情報発信先の一つで、また目立つ投稿をする準備ができていないと思っていたからです。

しかし、LDRコミュニティがついにまたそこに戻ってきたと思います。そろそろ再び報告する時期だと思います。

セットアップ

RTX 3090、24GB
Ollamaバックエンド（qwen3.6:27b）
LDRのlanggraph_agent戦略 — LangChain create_agent()（ツール呼び出し付き）、並列サブトピック分解、最大50イテレーション
LLMグレーダー：qwen3.6:27bで自己評価（opusを使って例をレビューしましたが、たいてい精度を過小評価するだけでした）

ベンチマーク（完全ローカルLLM＋Web検索）

モデル	SimpleQA	xbench-DeepSearch
Qwen3.6-27B	95.7%（287/300）	77.0%（77/100）
Qwen3.5-9B	91.2%（182/200）	59.0%（59/100）
gpt-oss-20B	85.4%（295/346）	–

サンプルサイズは小さいですが、ベンチマークを複数回やり直していないにもかかわらず、他の行から見て、単なる偶然である可能性は低いです。完全なリーダーボード：https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

重要な前提 — これは エージェント＋検索 スコアであって、クローズドブックではありません

ただし、これらの結果はPerplexity Deep Research（93.9%）、tavily（93.3%）などの類似したベンチマーク結果とも一致しています。［Tavilyは、LLMに取り出したドキュメントからのみ答えさせるよう強制します（純粋なリトリーバルテスト）。Perplexity Deep Researchはエンドツーエンドのエージェントで、グレーダーやサンプルサイズは開示されません。］

仮に私たちの結果がたった90%だとしても、それだけで十分に素晴らしい成功です。

また、毎日使っていることからも確認できますが、これらの結果は、毎日の質問のためにランダムに行う私のパフォーマンスと整合しているように感じます。

注意点：

新しいベースモデルでのSimpleQAの汚染リスクは現実にあります
LLMジャッジのノイズ＋サンプリング誤差
bench-DeepSearchは中国語なので、中国語のQwenモデルには有利です
まだBrowseComp／GAIAの数値はありません — ただ、私たちがこのベンチマークをまだ上手くやれているとは信じていません。現状を確認するためにいくつかのベンチマークを実行する必要があります

私を驚かせたこと：

ローカルでのディープリサーチでは、結果は、生のモデルサイズというよりもツール呼び出しの品質により追随しているように見えます。langgraph_agent戦略は、モデルに対して複数イテレーションのツール呼び出し、並列サブエージェント分解、そして構造化された出力を何度も強く要求します。これはまさに、より新しいQwen世代が最も改善している軸です。仮説ですが、アブレーションを設計したい人がいれば、ぜひデータを共有してほしいです。

追加で強調したい、いくつかのクールなLDR機能：

Journal Quality System（v1.6.0として提供）— OpenAlex、DOAJを使った学術ソースのグレーディング。オープンソースのディープリサーチ分野では、他では見たことがありません。
ユーザーごとのSQLCipher AES-256 DB（PBKDF2-HMAC-SHA512、256kイテレーション）— 管理者は保管時データを読み取れません。パスワード復旧はありません。私たちは鍵を保持していません。
ゼロのテレメトリ。 テレメトリなし、分析なし、トラッキングなし。
Cosign署名付きDockerイメージ（SLSAのプロベナンス＋SBOM付き）。
MITライセンス。 すべてオープンソース

リポジトリ：https://github.com/LearningCircuit/local-deep-research

戦略の設定を共有したり、Qwenの実行を再現するのを手伝ったりできます

このリポジトリを可能にした、すべての学術およびその他のオープンソースの基礎的な取り組みに感謝します。

submitted by /u/ComplexIt
[link] [comments]