Amazon Bedrockで画像入りPDF数百件のRAG構築にハマった話と対策

Zenn / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

共有:

要点

Amazon Bedrockを使い、画像入りPDFを数百件投入してRAGを構築しようとしてハマった具体的な詰まりどころを振り返っている。
画像を含むPDFの扱いに起因する前処理・取り込み・チャンク設計などの調整がうまく噛み合わず、品質や挙動に影響した点が中心になっている。
その問題に対して、実運用で効く対策（分解や表現、抽出フロー、設定や運用の工夫）を整理している。
単に「Bedrockでできた」ではなく、画像PDFという非テキスト寄りのデータをRAGに流し込む際の実装判断を具体化している。

はじめにこんにちは。ソリューションアーキテクトの髙宮です。この記事は、Bedrock Knowledge Bases（以下KB）で画像入りPDFを大量に取り込もうとして盛大にハマった経験を、自分の知識定着のためにまとめたものです。同じ壁にぶつかった方の参考になれば嬉しいです。 AgentCore Deep Diveシリーズで紹介しているマルチテナントSaaSの検証中、少量のPDFではスムーズに動いていたKBが、本番想定のデータ量を入れた途端に半数以上FAILEDになるという事態に直面しました。「なぜ落ちるのか」を理解するまでの試行錯誤と、最終的にたどり着いた3つの対策パターンを紹...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

[Boost]

Dev.to

実運用アプリにおけるLLMコンテキストの管理

Dev.to

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

Dev.to

OpenAIがSoraを終了 — 10分でできる移行ガイド（無料API）

Dev.to

AIボイスエージェントをWebSocketからWebRTCに切り替えた——何が壊れて、何を学んだか

Dev.to

Amazon Bedrockで画像入りPDF数百件のRAG構築にハマった話と対策

要点

関連記事

[Boost]

実運用アプリにおけるLLMコンテキストの管理

39体のエージェント・システムをライブ監査してみた。成熟度スコアカードが明らかにしたこと

OpenAIがSoraを終了 — 10分でできる移行ガイド（無料API）

AIボイスエージェントをWebSocketからWebRTCに切り替えた——何が壊れて、何を学んだか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer