【MarkItDown】Office/PDFをMarkdown化してRAG前処理に使う

Zenn / 4/1/2026

💬 OpinionDeveloper Stack & InfrastructureTools & Practical Usage

Key Points

  • MarkItDownを使って、OfficeドキュメントやPDFをMarkdown形式へ変換し、RAG(検索拡張生成)の前処理に活用する方法を紹介している。
  • 変換後のMarkdownは、テキスト抽出と構造化の土台として利用でき、RAG向けのチャンク分割やインデックス作成を進めやすくする。
  • Office/PDFの“元フォーマット依存”な手作業を減らし、取り込みから前処理までのワークフローを簡素化する狙いがある。
  • 実運用では、Markdown化した内容をRAGパイプライン(分割・埋め込み・検索)に接続する考え方が中心になっている。
はじめに この記事は、Microsoftの MarkItDown を使ってOffice/PDFファイルをMarkdownに変換する手順をまとめたものです。 RAGやLLM向けの前処理では、PDFやWordのまま保持するより、見出しや表をある程度保ったテキストにしておくと扱いやすくなります。今回は uv を使って最小構成で導入し、複数ファイルをまとめて .md に変換するところまで確認しました。 検証には各機関が公開しているファイルをお借りしています。 なお、先に結論を書くと、MarkItDownはRAGや検索の補助には有効ですが、元ファイルの完全な代替にはなりません。md を作れたか...

Continue reading this article on the original site.

Read original →