埋め込みとベクトル検索:RAG を理解する前提知識

AI Navigate Original / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage
共有:

要点

  • 埋め込みは文をベクトル化し意味が近いと空間で近い
  • ベクトル検索は同義/概念に強く完全一致に弱い
  • コサイン類似度が標準、多数のモデルとベクトル DB
  • RAG:チャンク→埋込→保存→上位 K 取得、pgvector が低障壁

埋め込み(Embedding)とは

文章や単語を 数百〜数千次元のベクトル(数値の列)に変換する技術。意味が近い文章はベクトル空間で距離が近い性質を持ちます。

イメージ

3 次元の例で説明:

  • 「犬」→ [0.8, 0.1, -0.5]
  • 「猫」→ [0.7, 0.2, -0.4](犬に近い)
  • 「車」→ [-0.3, 0.6, 0.9](犬と遠い)

実際のモデルは 768〜3072 次元など。OpenAI の text-embedding-3-small は 1536 次元。

キーワード検索との違い

方式例:「車を買いたい」
キーワード検索「車」「買」を含む文書
ベクトル検索「自動車購入」「クルマを欲しい」も類似

ベクトル検索は 表記ゆれ・同義語・概念マッチに強い。一方、キーワード一致が必要な場面(製品コード、固有名詞)では弱い。

類似度の計算

2 つのベクトル間の類似度を測る方法:

  • コサイン類似度:ベクトルの方向の近さ。-1〜1。最も使われる
  • ユークリッド距離:物理的距離。0 が一致
  • 内積:方向+大きさを考慮

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。