分子性質予測の汎用大規模言語モデル: 専門モデルからの知識蒸留

arXiv cs.LG / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • TreeKDは、決定木ベースの専門モデルが学習した予測規則を自然言語として言語化することで、文脈を補強する補完的な知識をLLMへ転送する。
  • 専門家の決定木は官能基特徴量を用いて訓練され、その規則を言語化して、LLMsにおける規則強化型の文脈学習を可能にする。
  • テスト時の規則整合性技術は、ランダムフォレスト由来の多様な規則に基づく予測をアンサンブルして頑健性を向上させる。
  • TDCベンチマークの22のADMET特性を対象とした実験により、TreeKDがLLMの性能を大幅に向上させ、最先端の専門モデルとの差を縮小することが示された。
  • この成果は、分子性質予測の実用的な汎用モデルへ向けた道を切り開く。

要約: 分子特性予測(MPP)は創薬における中核的な課題です。大規模言語モデル(LLMs)はMPPの汎用モデルとして有望である一方、現時点の性能は実用的な適用の閾値を下回っている。私たちはTreeKDという新規の知識蒸留手法を提案する。これは、木構造ベースの専門モデルから補完的な知識をLLMsへ転移させるものである。私たちのアプローチは、官能基特徴に基づく専門的な決定木を訓練し、それらが学習した予測ルールを自然言語として言語化して、ルール強化された文脈学習を可能にする。これにより、SMILES文字列だけからは抽出が難しい構造的洞察をLLMsが活用できるようになる。さらに、バッグ法にヒントを得たテスト時のスケーリング手法であるルール整合性を導入する。これはRandom Forestからの多様なルールに基づく予測をアンサンブルする。

TDCベンチマークの22のADMET特性を対象とした実験は、TreeKDがLLMの性能を大幅に向上させ、SOTA(最先端)の専門モデルとのギャップを縮小し、分子特性予測の実用的な汎用モデルへと前進することを示している。

返却形式: {"translated": "翻訳されたHTML"}

分子性質予測の汎用大規模言語モデル: 専門モデルからの知識蒸留 | AI Navigate