| ローカルLLM/RAGシステムに対するWeb検索オプションには、かなり不満がありました。ほとんどの構成は、Braveのような有料APIに依存しているか、SearXNGのようなメタ検索スクレイパーに頼っています。 そこで、私はLLMSearchIndex- インターネット規模の検索を完全にローカルで行うためのPythonライブラリを作りました。FineWeb + WikipediaのほとんどのWebページを含む、独自に学習された高圧縮の検索インデックスを使用します。インデックス全体はわずか~2GBで、ほとんどのハードウェア上でローカル実行でき、取得速度もかなり高速です。 この結果をRAGのコンテキストとして簡単に取得できるようにするために、pythonライブラリを作成しました。 こちらでデモも確認できます:https://zakerytclarke-llmsearchindex.hf.space/ [リンク] [コメント] |
LLMSearchIndex:RAG向けに2億件超のWebページを索引化するオープンソースのローカルWeb検索ライブラリ
Reddit r/LocalLLaMA / 2026/5/4
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- LLMSearchIndexは、LLM/RAG向けに設計された「完全ローカル」でインターネット規模のWeb検索を提供するオープンソースのPythonライブラリです。
- FineWebとWikipediaの大部分のページから作られた、独自に高圧縮化した検索インデックスを用いており、インデックス全体のサイズは約2GBです。
- 多くのローカル端末で動作しつつ高速な検索(リトリーブ)を実現し、RAGに必要な関連コンテキストの取得を狙っています。
- top-k件の結果を返すためのシンプルなAPIが用意されており、オンラインデモも公開されています。
- 著者は、有料の検索APIやSearXNGのようなメタ検索スクレイパーに代わる選択肢として位置付けています。



