言語モデルへ構造化された生物医学知識を注入する：継続的事前学習 vs. GraphRAG

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、UMLSメタシソーラスの構造化生物医学知識を言語モデルへ取り込む方法として、継続的事前学習（知識をモデルのパラメータへ埋め込む）とGraphRAG（推論時に知識グラフを参照する）の2手法を比較します。
3.4Mの概念と34.2Mの関係を含む、UMLS由来の大規模生物医学知識グラフをNeo4j上に構築し、約1億トークンのテキストコーパスを生成してBERT系モデル（BERTUMLS, BioBERTUMLS）を継続的に事前学習します。
BLURBの6つのベンチマークではBERTUMLSがベースのBERTを上回り、特に知識集約型のQAで大きな改善が見られます。一方でBioBERTUMLSの効果はより複雑で、ベースモデルがすでに生物医学知識を保持している場合には効果が逓減する可能性を示唆します。
QA評価（PubMedQA, BioASQ）では、LLaMA 3-8BにGraphRAGを適用すると、再学習なしでPubMedQAは3ポイント超、BioASQは5ポイント以上の精度向上が得られ、透明性の高いマルチホップな知識アクセスと、容易な更新性を提供します。
著者らは再現性のため、処理済みのUMLS Neo4jグラフを公開しています。

概要: ドメイン固有の知識を注入することは、言語モデル（LM）を生物医学のような専門分野へ適応させるうえで重要である。現在の多くの手法は非構造のテキストコーパスに依存しているが、本研究では、UMLSメタシソーラスから得られる構造化知識を活用するための、相補的な2つの戦略を検討する： (i) 継続事前学習により知識をモデルパラメータへ埋め込む方法、そして (ii) 推論時に知識グラフを参照するグラフ検索拡張生成（Graph Retrieval-Augmented Generation, GraphRAG）。まず、UMLSから大規模な生物医学知識グラフを構築する（340万コンセプトおよび3420万関係）。このグラフは効率的なクエリのためNeo4jに格納する。次に、このグラフから約1億トークンのテキストコーパスを生成し、それを用いて2つのモデルを継続的に事前学習する：BERTUMLS（BERTから）およびBioBERTUMLS（BioBERTから）である。これらのモデルを、5種類のタスクタイプにまたがる6つのBLURB（Biomedical Language Understanding and Reasoning Benchmark）データセットで評価し、さらに2つのQA（Question Answering）データセット（PubMedQA、BioASQ）に対してGraphRAGを評価する。BLURBのタスクでは、BERTUMLSはBERTより改善し、特に知識集約型QAで最大の向上が見られる。BioBERTに対する効果はより微妙で、基盤モデルがすでに相当量の生物医学テキスト知識をエンコードしている場合には、効果が逓減することを示唆している。最後に、LLaMA 3-8Bを本研究のGraphRAGパイプラインで拡張すると、再学習なしでPubMedQAで3ポイント超、BioASQで5ポイントの精度向上が得られる。これにより、透明性のあるマルチホップな知識アクセスと、容易な知識更新を実現する。再現性を支えるために、処理済みのUMLS Neo4jグラフを公開する。