PubMed × Vertex AI embeddings × UMAP/HDBSCAN でADC研究の地図を見てみた
Zenn / 2026/3/28
💬 オピニオンTools & Practical UsageModels & Research
要点
- PubMedの論文テキストをVertex AIのembeddingsに変換し、ADC研究領域の論文をベクトル空間で表現する手順を紹介している。
- UMAPで次元削減し、さらにHDBSCANでクラスタリングすることで、研究テーマや関連性の高い論文群を地図のように俯瞰できると説明している。
- 似たテーマが近くに配置される一方で、パラメータや前処理によってクラスタ構造が変わり得る点に言及し、実験・調整の重要性を示している。
- 研究探索(サーベイ)を“可視化とクラスタ発見”で効率化する実用的なワークフローとしてまとめている。
はじめに
ADC(抗体薬物複合体)は近年のオンコロジー領域で最も活発な開発分野のひとつだ。PubMedで「antibody drug conjugate」を検索すると、2021〜2026年だけで3000件以上の論文がヒットする。
これだけの量になると、人手でカバーするのは現実的ではないので今回は以下の解析手法で、ADC研究の「地図」を描いてみた。
PubMed API(Biopython) で論文タイトル+アブストラクトを一括取得
Vertex AI Embeddings でテキストをベクトル化
UMAP で2次元に次元削減
HDBSCAN でクラスタリング
Gemini...
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


