LLMSearchIndex：RAG向けに2億件超のWebページを索引化するオープンソースのローカルWeb検索ライブラリ

Reddit r/LocalLLaMA / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

LLMSearchIndexは、LLM/RAG向けに設計された「完全ローカル」でインターネット規模のWeb検索を提供するオープンソースのPythonライブラリです。
FineWebとWikipediaの大部分のページから作られた、独自に高圧縮化した検索インデックスを用いており、インデックス全体のサイズは約2GBです。
多くのローカル端末で動作しつつ高速な検索（リトリーブ）を実現し、RAGに必要な関連コンテキストの取得を狙っています。
top-k件の結果を返すためのシンプルなAPIが用意されており、オンラインデモも公開されています。
著者は、有料の検索APIやSearXNGのようなメタ検索スクレイパーに代わる選択肢として位置付けています。

LLMSearchIndex- RAGアプリケーション向けに2億件以上のインデックス付きWebページを収録したオープンソースのローカルWeb検索ライブラリ

ローカルLLM/RAGシステムに対するWeb検索オプションには、かなり不満がありました。ほとんどの構成は、Braveのような有料APIに依存しているか、SearXNGのようなメタ検索スクレイパーに頼っています。

そこで、私はLLMSearchIndex- インターネット規模の検索を完全にローカルで行うためのPythonライブラリを作りました。FineWeb + WikipediaのほとんどのWebページを含む、独自に学習された高圧縮の検索インデックスを使用します。インデックス全体はわずか~2GBで、ほとんどのハードウェア上でローカル実行でき、取得速度もかなり高速です。

この結果をRAGのコンテキストとして簡単に取得できるようにするために、pythonライブラリを作成しました。

from llmsearchindex import LLMIndex index = LLMIndex() results = index.search("スライスパンは誰が発明した？", top_k=5)

こちらでデモも確認できます：https://zakerytclarke-llmsearchindex.hf.space/

submitted by /u/zakerytclarke
[リンク] [コメント]

Black Hat USA

AI Business

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

残業時間が4割減特注設備メーカーがTeamsに独自AI、指示や理解を正確に

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

LLMSearchIndex：RAG向けに2億件超のWebページを索引化するオープンソースのローカルWeb検索ライブラリ

要点

関連記事

Black Hat USA

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

残業時間が4割減特注設備メーカーがTeamsに独自AI、指示や理解を正確に

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

残業時間が4割減 特注設備メーカーがTeamsに独自AI、指示や理解を正確に

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

残業時間が4割減特注設備メーカーがTeamsに独自AI、指示や理解を正確に