埋め込み(Embedding)とは
文章や単語を 数百〜数千次元のベクトル(数値の列)に変換する技術。意味が近い文章はベクトル空間で距離が近い性質を持ちます。
イメージ
3 次元の例で説明:
- 「犬」→ [0.8, 0.1, -0.5]
- 「猫」→ [0.7, 0.2, -0.4](犬に近い)
- 「車」→ [-0.3, 0.6, 0.9](犬と遠い)
実際のモデルは 768〜3072 次元など。OpenAI の text-embedding-3-small は 1536 次元。
キーワード検索との違い
| 方式 | 例:「車を買いたい」 |
|---|---|
| キーワード検索 | 「車」「買」を含む文書 |
| ベクトル検索 | 「自動車購入」「クルマを欲しい」も類似 |
ベクトル検索は 表記ゆれ・同義語・概念マッチに強い。一方、キーワード一致が必要な場面(製品コード、固有名詞)では弱い。
類似度の計算
2 つのベクトル間の類似度を測る方法:
- コサイン類似度:ベクトルの方向の近さ。-1〜1。最も使われる
- ユークリッド距離:物理的距離。0 が一致
- 内積:方向+大きさを考慮




