要旨: 動機: 表現型(phenotype)概念認識(CR)は、生物医学テキストマイニングにおける基本的な課題である。 しかし、既存手法は、オントロジー固有の学習を必要とするために多様な文体や進化する生物医学用語にまたがって一般化することが難しいか、あるいは必要な領域知識を欠く汎用の大規模言語モデル(LLM)に依存している。 結果: これらの制約に対処するために、本研究ではAutoPCRを提案する。これは、オントロジー固有の学習を行わずに、新しいオントロジーや見たことのないデータへ自動的に一般化することを目的とした、プロンプトベースの表現型CR手法である。 さらに性能を高めるために、オプションとして自己教師あり学習戦略も導入する。 実験の結果、AutoPCRはデータセット全体で最良の平均性能かつ最も頑健な性能を達成することが示された。 さらに、アブレーション研究および移行(転移)研究により、その帰納的能力と、新しいオントロジーへの汎化可能性が確認された。 利用可能性と実装: コードは https://github.com/yctao7/AutoPCR で公開している。 連絡先: drjieliu@umich.edu
AutoPCR: プロンプトによる自動表現型概念認識
arXiv cs.CL / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- AutoPCR は、生物医学テキストマイニングのタスクに向けた、プロンプトベースの表現型概念認識(CR)手法であり、表現型の言及を概念へと対応付けることを目的としています。
- この手法は、オントロジー固有の学習を不要とし、新しいオントロジーやこれまでに見たことのないデータに対しても汎化できるよう設計されており、多くの従来の CR システムが抱える重要な弱点に対処しています。
- AutoPCR は、性能をさらに向上させるために、自主教師ありの学習戦略をオプションとして用いることもできます。
- 実験結果では、AutoPCR が複数のデータセットにおいて平均的かつ最も頑健な性能を達成していることが示されており、アブレーション研究およびトランスファー研究によって、帰納的能力とオントロジーをまたいだ汎化可能性が裏付けられています。
- 本論文では実装を提供し、再現性および下流利用のために GitHub でコードを公開しています。



