LLMSearchIndex:RAG向けに2億件超のWebページを索引化するオープンソースのローカルWeb検索ライブラリ

Reddit r/LocalLLaMA / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • LLMSearchIndexは、LLM/RAG向けに設計された「完全ローカル」でインターネット規模のWeb検索を提供するオープンソースのPythonライブラリです。
  • FineWebとWikipediaの大部分のページから作られた、独自に高圧縮化した検索インデックスを用いており、インデックス全体のサイズは約2GBです。
  • 多くのローカル端末で動作しつつ高速な検索(リトリーブ)を実現し、RAGに必要な関連コンテキストの取得を狙っています。
  • top-k件の結果を返すためのシンプルなAPIが用意されており、オンラインデモも公開されています。
  • 著者は、有料の検索APIやSearXNGのようなメタ検索スクレイパーに代わる選択肢として位置付けています。
LLMSearchIndex- RAGアプリケーション向けに2億件以上のインデックス付きWebページを収録したオープンソースのローカルWeb検索ライブラリ

ローカルLLM/RAGシステムに対するWeb検索オプションには、かなり不満がありました。ほとんどの構成は、Braveのような有料APIに依存しているか、SearXNGのようなメタ検索スクレイパーに頼っています。

そこで、私はLLMSearchIndex- インターネット規模の検索を完全にローカルで行うためのPythonライブラリを作りました。FineWeb + WikipediaのほとんどのWebページを含む、独自に学習された高圧縮の検索インデックスを使用します。インデックス全体はわずか~2GBで、ほとんどのハードウェア上でローカル実行でき、取得速度もかなり高速です。

この結果をRAGのコンテキストとして簡単に取得できるようにするために、pythonライブラリを作成しました。

from llmsearchindex import LLMIndex index = LLMIndex() results = index.search("スライスパンは誰が発明した?", top_k=5) 

こちらでデモも確認できます:https://zakerytclarke-llmsearchindex.hf.space/

submitted by /u/zakerytclarke
[リンク] [コメント]