RTX 4060 8GBで論文RAGを完全ローカル化した — BGE-M3 + Qwen2.5-32B + ChromaDB構築記

Zenn / 2026/3/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

RTX 4060 8GBという低メモリ環境で、論文RAGを「完全ローカル」構成として動かす手順を紹介しています。
埋め込み（BGE-M3）と大規模言語モデル（Qwen2.5-32B）を組み合わせ、ChromaDBでベクトルDBを構築して検索・生成まで行います。
Zenn記事の趣旨として、実際の構築記に焦点があり、ローカルLLM/RAG運用の現実的な構成・検討ポイントが示されています。
GPU制約がある8GB環境でもRAGを成立させるための構成選定（モデル/周辺コンポーネントの組合せ）に価値があります。

RTX 4060 8GBで論文RAGを完全ローカル化した — BGE-M3 + Qwen2.5-32B + ChromaDB構築記 ArXivの論文を読むのにGPT-4oを使っていた。PDFを投げて「要約して」で30秒。便利だった。ある日、社内の研究テーマに近い論文を50本まとめて処理しようとして手が止まった。セキュリティポリシー的に外部APIに投げていいのかこれ。上司に聞いたら案の定ダメで、じゃあローカルで全部やるしかないな、というのがこのプロジェクトの始まりだ。 llama.cppでQwen2.5-32Bを動かせることは前回の記事で確認済みだった。LLMはある。あとは「論文の中...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →