埋め込みとベクトル検索の基礎:RAG を理解する前提知識

AI Navigate Original / 2026/4/27

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical Usage
共有:

要点

  • 埋め込みは文章を「数百〜数千次元のベクトル」に変換する技術
  • 意味が近い文章はベクトル空間で「距離が近い」
  • ベクトル検索(Vector Search / Semantic Search)はキーワード検索より柔軟
  • RAG の基盤技術。Pinecone、Weaviate、pgvector が代表
  • 多言語埋め込みで日英横断検索も可能

埋め込み(Embedding)とは

文章や単語を 数百〜数千次元のベクトル(数値の列)に変換する技術。意味が近い文章はベクトル空間で距離が近い性質を持ちます。

イメージ

3 次元の例で説明:

  • 「犬」→ [0.8, 0.1, -0.5]
  • 「猫」→ [0.7, 0.2, -0.4](犬に近い)
  • 「車」→ [-0.3, 0.6, 0.9](犬と遠い)

実際のモデルは 768〜3072 次元など。OpenAI の text-embedding-3-small は 1536 次元。

キーワード検索との違い

方式例:「車を買いたい」
キーワード検索「車」「買」を含む文書
ベクトル検索「自動車購入」「クルマを欲しい」も類似

ベクトル検索は 表記ゆれ・同義語・概念マッチに強い。一方、キーワード一致が必要な場面(製品コード、固有名詞)では弱い。

類似度の計算

2 つのベクトル間の類似度を測る方法:

  • コサイン類似度:ベクトルの方向の近さ。-1〜1。最も使われる
  • ユークリッド距離:物理的距離。0 が一致
  • 内積:方向+大きさを考慮

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。