埋め込みとベクトル検索:RAG を理解する前提知識

AI Navigate Original / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage
共有:

要点

  • 埋め込みは文をベクトル化し意味が近いと空間で近い
  • ベクトル検索は同義/概念に強く完全一致に弱い
  • コサイン類似度が標準、多数のモデルとベクトル DB
  • RAG:チャンク→埋込→保存→上位 K 取得、pgvector が低障壁

RAG(検索拡張生成)の中身を理解するには、その手前にある二つの技術——埋め込み(embedding)ベクトル検索——を押さえておくと一気に見通しが良くなります。ざっくり言えば、文章を「意味を表す数値の列」に変換し(埋め込み)、その数値の近さで似た文章を探す(ベクトル検索)。本記事は、この二つを具体例と図で、初めての人でも読めるように整理します。

01埋め込みとは「文章を座標に置く」こと

埋め込みとは、文章や単語を数百〜数千個の数値が並んだベクトルに変換する技術です。鍵になる性質は一つだけ。意味が近い文章どうしは、変換後のベクトルも近い場所に来る——これだけです。

イメージしやすいよう、まず 3 つの数値(3 次元)に縮めた例で説明します。各単語が空間上の一点(座標)になると考えてください。

単語ベクトル(3次元の例)
[0.8, 0.1, -0.5]
[0.7, 0.2, -0.4] ← 犬に近い
自動車[-0.3, 0.6, 0.9] ← 犬から遠い

「犬」と「猫」は座標が近く、「自動車」は離れています。実際の埋め込みモデルが作るベクトルは 3 次元ではなく、1024〜3072 次元といった高次元です。たとえば OpenAI の text-embedding-3-small は 1536 次元、text-embedding-3-large は 3072 次元のベクトルを返します。人間には絵に描けない次元数ですが、「意味が近ければ座標も近い」という原理は 3 次元の例とまったく同じです。

文章 埋め込み モデル [0.8, 0.1, -0.5, … ](1536次元など) 自動車

FIG.1 埋め込みモデルが文章を高次元ベクトル=意味空間の一点に変換する。意味が近い語は近くに集まる

02キーワード検索とどう違うのか

従来のキーワード検索は文字が一致するかを見ます。一方ベクトル検索は意味が近いかを見ます。この違いが、検索の取りこぼしを大きく左右します。

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。