LDRのメンテナーです。r/LocalLLaMAコミュニティの強力な支援のおかげで、LDRはかなり遠くまで進みました。しばらく報告していなかったのは、ローカルLLM研究の主要な情報発信先の一つで、また目立つ投稿をする準備ができていないと思っていたからです。
しかし、LDRコミュニティがついにまたそこに戻ってきたと思います。そろそろ再び報告する時期だと思います。
セットアップ
- RTX 3090、24GB
- Ollamaバックエンド(qwen3.6:27b)
- LDRの
langgraph_agent戦略 — LangChaincreate_agent()(ツール呼び出し付き)、並列サブトピック分解、最大50イテレーション - LLMグレーダー:qwen3.6:27bで自己評価(opusを使って例をレビューしましたが、たいてい精度を過小評価するだけでした)
ベンチマーク(完全ローカルLLM+Web検索)
| モデル | SimpleQA | xbench-DeepSearch |
|---|---|---|
| Qwen3.6-27B | 95.7%(287/300) | 77.0%(77/100) |
| Qwen3.5-9B | 91.2%(182/200) | 59.0%(59/100) |
| gpt-oss-20B | 85.4%(295/346) | – |
サンプルサイズは小さいですが、ベンチマークを複数回やり直していないにもかかわらず、他の行から見て、単なる偶然である可能性は低いです。完全なリーダーボード:https://huggingface.co/datasets/local-deep-research/ldr-benchmarks
重要な前提 — これは エージェント+検索 スコアであって、クローズドブックではありません
ただし、これらの結果はPerplexity Deep Research(93.9%)、tavily(93.3%)などの類似したベンチマーク結果とも一致しています。[Tavilyは、LLMに取り出したドキュメントからのみ答えさせるよう強制します(純粋なリトリーバルテスト)。Perplexity Deep Researchはエンドツーエンドのエージェントで、グレーダーやサンプルサイズは開示されません。]
仮に私たちの結果がたった90%だとしても、それだけで十分に素晴らしい成功です。
また、毎日使っていることからも確認できますが、これらの結果は、毎日の質問のためにランダムに行う私のパフォーマンスと整合しているように感じます。
注意点:
- 新しいベースモデルでのSimpleQAの汚染リスクは現実にあります
- LLMジャッジのノイズ+サンプリング誤差
- bench-DeepSearchは中国語なので、中国語のQwenモデルには有利です
- まだBrowseComp/GAIAの数値はありません — ただ、私たちがこのベンチマークをまだ上手くやれているとは信じていません。現状を確認するためにいくつかのベンチマークを実行する必要があります
私を驚かせたこと:
ローカルでのディープリサーチでは、結果は、生のモデルサイズというよりもツール呼び出しの品質により追随しているように見えます。langgraph_agent戦略は、モデルに対して複数イテレーションのツール呼び出し、並列サブエージェント分解、そして構造化された出力を何度も強く要求します。これはまさに、より新しいQwen世代が最も改善している軸です。仮説ですが、アブレーションを設計したい人がいれば、ぜひデータを共有してほしいです。
追加で強調したい、いくつかのクールなLDR機能:
- Journal Quality System(v1.6.0として提供)— OpenAlex、DOAJを使った学術ソースのグレーディング。オープンソースのディープリサーチ分野では、他では見たことがありません。
- ユーザーごとのSQLCipher AES-256 DB(PBKDF2-HMAC-SHA512、256kイテレーション)— 管理者は保管時データを読み取れません。パスワード復旧はありません。私たちは鍵を保持していません。
- ゼロのテレメトリ。 テレメトリなし、分析なし、トラッキングなし。
- Cosign署名付きDockerイメージ(SLSAのプロベナンス+SBOM付き)。
- MITライセンス。 すべてオープンソース
リポジトリ:https://github.com/LearningCircuit/local-deep-research
戦略の設定を共有したり、Qwenの実行を再現するのを手伝ったりできます
このリポジトリを可能にした、すべての学術およびその他のオープンソースの基礎的な取り組みに感謝します。
[link] [comments]




