要約は「型」が 9 割
「要約してください」だけでは AI も平凡な短文を返します。対象・用途・粒度を指定すると劇的に質が上がります。
長文要約の階層手法
10,000 字超の長文は2 段要約が効果的:
- 章・節ごとに 200〜500 字で要約
- その要約をさらに統合して 800〜1500 字の最終要約
プロンプト例
以下の章を 300 字で要約。
- 重要な数値・固有名詞は保持
- 著者の主張と根拠を明記
- 自分の解釈は加えない
[本文]
PDF の処理
テキスト抽出
- シンプルな PDF:pdftotext、pdf-parse
- レイアウト複雑:Adobe Extract API、unstructured.io
- スキャン PDF:Tesseract OCR、Google Vision、Azure Document Intelligence
- マルチモーダル AI に直接渡す(GPT-5、Claude)
構造化抽出
表・図・段落構造を保持して JSON 化:

