Amazon Bedrockで画像入りPDF数百件のRAG構築にハマった話と対策
Zenn / 2026/3/27
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage
要点
- Amazon Bedrockを使い、画像入りPDFを数百件投入してRAGを構築しようとしてハマった具体的な詰まりどころを振り返っている。
- 画像を含むPDFの扱いに起因する前処理・取り込み・チャンク設計などの調整がうまく噛み合わず、品質や挙動に影響した点が中心になっている。
- その問題に対して、実運用で効く対策(分解や表現、抽出フロー、設定や運用の工夫)を整理している。
- 単に「Bedrockでできた」ではなく、画像PDFという非テキスト寄りのデータをRAGに流し込む際の実装判断を具体化している。
はじめに
こんにちは。ソリューションアーキテクトの髙宮です。
この記事は、Bedrock Knowledge Bases(以下KB)で画像入りPDFを大量に取り込もうとして盛大にハマった経験を、自分の知識定着のためにまとめたものです。同じ壁にぶつかった方の参考になれば嬉しいです。
AgentCore Deep Diveシリーズで紹介しているマルチテナントSaaSの検証中、少量のPDFではスムーズに動いていたKBが、本番想定のデータ量を入れた途端に半数以上FAILEDになるという事態に直面しました。「なぜ落ちるのか」を理解するまでの試行錯誤と、最終的にたどり着いた3つの対策パターンを紹...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →広告
![[Boost]](/_next/image?url=https%3A%2F%2Fmedia2.dev.to%2Fdynamic%2Fimage%2Fwidth%3D800%252Cheight%3D%252Cfit%3Dscale-down%252Cgravity%3Dauto%252Cformat%3Dauto%2Fhttps%253A%252F%252Fdev-to-uploads.s3.amazonaws.com%252Fuploads%252Fuser%252Fprofile_image%252F3618325%252F470cf6d0-e54c-4ddf-8d83-e3db9f829f2b.jpg&w=3840&q=75)
