【RAG入門②】RAGのチャンク・ベクトル・類似度の中身を覗く
Zenn / 3/12/2026
💬 OpinionDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage
Key Points
- RAGの基本は、データをチャンク化してベクトル化し、類似度検索で関連情報を取り出す点を解説すること。
- チャンクの粒度やサイズは検索品質と推論速度のトレードオフを決める要因となる。
- 埋め込みベクトルは意味空間での近さを測るためのもので、意味的に近いチャンクを見つけ出す役割を担う。
- 検索で得られたチャンクを生成モデルに供給して、文脈を活用した回答を組み立てる流れを具体的に解説する。
はじめに
前回の記事では、PythonとOllamaを使ってRAGをゼロから実装しました。
今回は、前回のコードをベースに、チャンク・ベクトル・類似度の内容を確認します。
今回行うこと
チャンクがどう分割されているかを可視化する
ベクトル(埋め込み)の値を確認し、2D散布図で意味の近さを確認する
類似度スコアの全体分布を眺め、なぜそのチャンクが選ばれるかを理解する
!
この記事は前回の続きです。
環境構築(Ollamaのインストール、モデルのダウンロード)は前回の記事を参照してください。
コードはGitHubで公開しています。
https://github.com/norma2...
Continue reading this article on the original site.
Read original →