オントロジー制約付きLLMエージェントによるレガシー生物医学メタデータの自動標準化

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生物医学研究データセットにおける一般的な課題、すなわちレガシー・メタデータが不完全であったり、コミュニティ標準に準拠していなかったりするために、見つけやすさ(findability)、相互運用性(interoperability)、再利用性(reuse)が低下する問題に取り組む。
  • 先行研究の「プロンプトのみ」のアプローチを改善し、制約を静的なテキストとして扱うのではなく「実行可能なもの」として扱う、オントロジー制約付きLLMシステムによるメタデータ標準化を提案する。
  • LLMの学習知識だけに頼るのではなく、権威ある生物医学の用語サービスにリアルタイムで問い合わせて、正準的(canonical)に正しい語彙用語を取得する。
  • 専門家がキュレーションしたゴールドスタンダードに対して、839件のレガシーHuBMAPレコードで評価したところ、LLM単独よりもリアルタイムツールアクセスを追加することで、精度の一貫した向上が示される。
  • 結果は、LLM、オントロジー制約、そしてライブな用語ツールを組み合わせることで、FAIRデータセットを作成するための実用的かつスケーラブルな道筋を示唆している。