PubMed × Vertex AI embeddings × UMAP/HDBSCAN でADC研究の地図を見てみた

Zenn / 3/28/2026

💬 OpinionTools & Practical UsageModels & Research

Key Points

  • PubMedの論文テキストをVertex AIのembeddingsに変換し、ADC研究領域の論文をベクトル空間で表現する手順を紹介している。
  • UMAPで次元削減し、さらにHDBSCANでクラスタリングすることで、研究テーマや関連性の高い論文群を地図のように俯瞰できると説明している。
  • 似たテーマが近くに配置される一方で、パラメータや前処理によってクラスタ構造が変わり得る点に言及し、実験・調整の重要性を示している。
  • 研究探索(サーベイ)を“可視化とクラスタ発見”で効率化する実用的なワークフローとしてまとめている。
はじめに ADC(抗体薬物複合体)は近年のオンコロジー領域で最も活発な開発分野のひとつだ。PubMedで「antibody drug conjugate」を検索すると、2021〜2026年だけで3000件以上の論文がヒットする。 これだけの量になると、人手でカバーするのは現実的ではないので今回は以下の解析手法で、ADC研究の「地図」を描いてみた。 PubMed API(Biopython) で論文タイトル+アブストラクトを一括取得 Vertex AI Embeddings でテキストをベクトル化 UMAP で2次元に次元削減 HDBSCAN でクラスタリング Gemini...

Continue reading this article on the original site.

Read original →