Karpathyさんの、研究ドキュメントから個人用ウィキを作るのにLLMを使うという投稿を見て、私はすでに社内で似たようなものをR&D向けに使っていたことに気づきました。
それをきれいに整えて、オープンソース化しました。
何をするか: 生のドキュメントのフォルダ(PDF、論文、メモ、コード、60+形式)を投げると、LLMがそれらを、相互リンクされた記事、コンセプトページ、マスターインデックスを備えた構造化されたmarkdownウィキにコンパイルします。さらに、すべてをRAG検索用に最適化された.auraアーカイブに圧縮します(元のソースデータに比べて約97%小さくなります)。
仕組み:
pip install aura-research research init my-project # コピーしたドキュメントを raw/ に入れる research ingest raw/ research compile research query "あなたの質問" 重要な設計判断:
- 埋め込み(embeddings)も、ベクタデータベースも使いません。代わりにSimHash + Bloom Filtersを使います。RAMのオーバーヘッドはゼロです。
- 組み込みの3層メモリOS(事実 / エピソード / スクラッチパッド)により、セッションをまたいでもLLMが重要なコンテキストを忘れないようにしています。
- ウィキはただの
.mdファイルです。Obsidian、VS Code、あるいは好きなものなら何でも使って閲覧できます。 - どんなLLMプロバイダでも動作します(OpenAI、Anthropic、Gemini)。またはClaude Code/Gemini CLIのようなエージェントネイティブのツールとして動かせます(APIキーが不要です)。
- すべてローカルで動作します。データはあなたのマシンから外に出ません。
「埋め込みなし」の選択: 私は意図的に標準的なRAGパイプライン(チャンク → 埋め込み → ベクタ検索)を避けました。その代わりに、LLMは知識をインデックス付きでよく構造化されたウィキとしてコンパイルします。問い合わせ時には、インデックスを読み、関連する記事を2〜3個だけ見つけ、それらだけを読み込みます。ファイル構造が適切に整理されていれば、知識を適切にナビゲートできるほどLLMは賢いので、別の埋め込みモデルは不要です。
GitHub: https://github.com/Rtalabs-ai/aura-research PyPI: pip install aura-research
このコミュニティからのフィードバックが欲しいです。特に「構造化ウィキ vs ベクタ埋め込み」というトレードオフについて。皆さんの考えを楽しみにしています!
また、これをプロダクトとしてパッケージ化することも考えています。何か洞察があれば嬉しいです!
[link] [comments]



