gemini embedding 2 による資料の類似性は見た目で決まる？内容で決まる？ PDF と画像で検証してみた

Zenn / 2026/3/19

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

Gemini embedding 2 の資料類似性は、見た目の特徴だけで決まらず、本文内容の影響を検証している。
PDFと画像の2モードを比較した実験で、モード間の挙動差を観察した。
見た目ベースの類似性に依存すると誤判定が増える可能性があり、内容ベースの特徴を重視することが推奨される。
実務上は視覚特徴とテキスト特徴を組み合わせた埋め込みパイプラインが有効な可能性が示唆される。

前回、gemini-embedding-2 を使って、OCR しづらい資料でもそれっぽく近いものを拾えそう、という話を書きました。 gemini embedding 2 で "資料単位のナレッジ化" が容易に！？OCRできない見た目の知識をRAG化する https://zenn.dev/bekku/articles/5fcbeae4ec5afb 今回はその続きとして、もう少し気になっていたことを試しました。それが、PDF や画像のような資料において、embedding は見た目に強く引っ張られるのか、それとも資料中のテキスト内容に強く引っ張られるのか、という点です。加えて、gemin...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

gemini embedding 2 による資料の類似性は見た目で決まる？内容で決まる？ PDF と画像で検証してみた

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer