ついに到達:Qwen3.6-27B+エージェント型サーチで、単一3090上のローカルでSimpleQA 95.7%

Reddit r/LocalLLaMA / 2026/5/2

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • この投稿は、Qwen3.6-27BをLangGraph/LangChainのエージェント構成とローカルWeb検索と組み合わせることで、単一のRTX 3090+OllamaバックエンドのみでSimpleQAの非常に高い精度が出せると報告しています。
  • 述べられたローカルベンチマークでは、Qwen3.6-27BがSimpleQA 95.7%(287/300)およびxbench-DeepSearch 77.0%(77/100)を達成し、同条件でQwen3.5-9Bを上回っています。
  • 著者は、これらの結果がクローズドブック(検索なし)精度ではなく「エージェント+検索」の性能だと位置づけ、Perplexity Deep Researchのような公開されているエンドツーエンドのエージェント系とも概ね同様の傾向だと述べています。
  • 評価では同じQwen3.6-27Bによる自己採点を用い、さらに新しいベースモデルでのベンチ汚染リスク、判定のノイズ、小さなサンプル数、xbench-DeepSearchの言語バイアスといった注意点を強調しています。
  • 要点として、ローカルでのディープリサーチでは、単純なパラメータ数よりもツール呼び出し品質やLangGraphエージェント戦略の寄与が大きい可能性が示唆されています。

LDRのメンテナーです。r/LocalLLaMAコミュニティの強力な支援のおかげで、LDRはかなり遠くまで進みました。しばらく報告していなかったのは、ローカルLLM研究の主要な情報発信先の一つで、また目立つ投稿をする準備ができていないと思っていたからです。

しかし、LDRコミュニティがついにまたそこに戻ってきたと思います。そろそろ再び報告する時期だと思います。

セットアップ

  • RTX 3090、24GB
  • Ollamaバックエンド(qwen3.6:27b)
  • LDRのlanggraph_agent戦略 — LangChain create_agent()(ツール呼び出し付き)、並列サブトピック分解、最大50イテレーション
  • LLMグレーダー:qwen3.6:27bで自己評価(opusを使って例をレビューしましたが、たいてい精度を過小評価するだけでした)

ベンチマーク(完全ローカルLLM+Web検索)

モデル SimpleQA xbench-DeepSearch
Qwen3.6-27B 95.7%(287/300) 77.0%(77/100)
Qwen3.5-9B 91.2%(182/200) 59.0%(59/100)
gpt-oss-20B 85.4%(295/346)

サンプルサイズは小さいですが、ベンチマークを複数回やり直していないにもかかわらず、他の行から見て、単なる偶然である可能性は低いです。完全なリーダーボード:https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

重要な前提 — これは エージェント+検索 スコアであって、クローズドブックではありません

ただし、これらの結果はPerplexity Deep Research(93.9%)、tavily(93.3%)などの類似したベンチマーク結果とも一致しています。[Tavilyは、LLMに取り出したドキュメントからのみ答えさせるよう強制します(純粋なリトリーバルテスト)。Perplexity Deep Researchはエンドツーエンドのエージェントで、グレーダーやサンプルサイズは開示されません。]

仮に私たちの結果がたった90%だとしても、それだけで十分に素晴らしい成功です。

また、毎日使っていることからも確認できますが、これらの結果は、毎日の質問のためにランダムに行う私のパフォーマンスと整合しているように感じます。

注意点:

  • 新しいベースモデルでのSimpleQAの汚染リスクは現実にあります
  • LLMジャッジのノイズ+サンプリング誤差
  • bench-DeepSearchは中国語なので、中国語のQwenモデルには有利です
  • まだBrowseComp/GAIAの数値はありません — ただ、私たちがこのベンチマークをまだ上手くやれているとは信じていません。現状を確認するためにいくつかのベンチマークを実行する必要があります

私を驚かせたこと:

ローカルでのディープリサーチでは、結果は、生のモデルサイズというよりもツール呼び出しの品質により追随しているように見えます。langgraph_agent戦略は、モデルに対して複数イテレーションのツール呼び出し、並列サブエージェント分解、そして構造化された出力を何度も強く要求します。これはまさに、より新しいQwen世代が最も改善している軸です。仮説ですが、アブレーションを設計したい人がいれば、ぜひデータを共有してほしいです。

追加で強調したい、いくつかのクールなLDR機能:

  • Journal Quality System(v1.6.0として提供)— OpenAlex、DOAJを使った学術ソースのグレーディング。オープンソースのディープリサーチ分野では、他では見たことがありません。
  • ユーザーごとのSQLCipher AES-256 DB(PBKDF2-HMAC-SHA512、256kイテレーション)— 管理者は保管時データを読み取れません。パスワード復旧はありません。私たちは鍵を保持していません。
  • ゼロのテレメトリ。 テレメトリなし、分析なし、トラッキングなし。
  • Cosign署名付きDockerイメージ(SLSAのプロベナンス+SBOM付き)。
  • MITライセンス。 すべてオープンソース

リポジトリ:https://github.com/LearningCircuit/local-deep-research

戦略の設定を共有したり、Qwenの実行を再現するのを手伝ったりできます

このリポジトリを可能にした、すべての学術およびその他のオープンソースの基礎的な取り組みに感謝します。

submitted by /u/ComplexIt
[link] [comments]