BioHiCL:MeSHラベルによる階層的マルチラベルコントラスト学習を用いた生物医学検索

arXiv cs.AI / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生物医学情報検索において生物医学テキスト間の意味論と階層的関係を明示的にモデル化することを課題として扱っています。
  • MeSHラベルの階層構造を構造化された教師信号として用いる階層的マルチラベルコントラスト学習手法「BioHiCL」を提案しています。
  • 従来の生物医学ジェネレーティブ・リトリーバは粗い二値の関連度シグナルに依存しがちで、そのため意味的な重なりを十分に捉えにくいと主張しています。
  • BioHiCLは効率性を重視して2種類のモデル(BioHiCL-Base:0.1B、BioHiCL-Large:0.3B)で実装され、生物医学検索・文の類似度・質問応答の各タスクで良好な結果を示しています。
  • 提案手法は、競争力のある性能を保ちつつ計算効率も高く、実運用(デプロイ)に向けた実用性を持つと位置づけられています。

Abstract

効果的なバイオメディカル情報検索には、バイオメディカル文書間の領域セマンティクスと階層的関係をモデル化することが必要です。既存のバイオメディカル生成型リトリーバは、粗い2値の関連性シグナルに基づいており、セマンティックな重なりを捉える能力が制限されています。そこで我々は、BioHiCL(階層的マルチラベル対照学習によるバイオメディカル検索)を提案します。本手法は、階層的なMeSHアノテーションを活用して、マルチラベル対照学習のための構造化された教師信号を提供します。我々のモデルであるBioHiCL-Base(0.1B)およびBioHiCL-Large(0.3B)は、バイオメディカル検索、文の類似性、質問応答タスクにおいて有望な性能を達成しつつ、デプロイのための計算効率も維持しています。