要約: 分子特性予測(MPP)は創薬における中核的な課題です。大規模言語モデル(LLMs)はMPPの汎用モデルとして有望である一方、現時点の性能は実用的な適用の閾値を下回っている。私たちはTreeKDという新規の知識蒸留手法を提案する。これは、木構造ベースの専門モデルから補完的な知識をLLMsへ転移させるものである。私たちのアプローチは、官能基特徴に基づく専門的な決定木を訓練し、それらが学習した予測ルールを自然言語として言語化して、ルール強化された文脈学習を可能にする。これにより、SMILES文字列だけからは抽出が難しい構造的洞察をLLMsが活用できるようになる。さらに、バッグ法にヒントを得たテスト時のスケーリング手法であるルール整合性を導入する。これはRandom Forestからの多様なルールに基づく予測をアンサンブルする。
TDCベンチマークの22のADMET特性を対象とした実験は、TreeKDがLLMの性能を大幅に向上させ、SOTA(最先端)の専門モデルとのギャップを縮小し、分子特性予測の実用的な汎用モデルへと前進することを示している。
返却形式: {"translated": "翻訳されたHTML"}