分子性質予測の汎用大規模言語モデル: 専門モデルからの知識蒸留

arXiv cs.LG / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

TreeKDは、決定木ベースの専門モデルが学習した予測規則を自然言語として言語化することで、文脈を補強する補完的な知識をLLMへ転送する。
専門家の決定木は官能基特徴量を用いて訓練され、その規則を言語化して、LLMsにおける規則強化型の文脈学習を可能にする。
テスト時の規則整合性技術は、ランダムフォレスト由来の多様な規則に基づく予測をアンサンブルして頑健性を向上させる。
TDCベンチマークの22のADMET特性を対象とした実験により、TreeKDがLLMの性能を大幅に向上させ、最先端の専門モデルとの差を縮小することが示された。
この成果は、分子性質予測の実用的な汎用モデルへ向けた道を切り開く。

要約: 分子特性予測（MPP）は創薬における中核的な課題です。大規模言語モデル（LLMs）はMPPの汎用モデルとして有望である一方、現時点の性能は実用的な適用の閾値を下回っている。私たちはTreeKDという新規の知識蒸留手法を提案する。これは、木構造ベースの専門モデルから補完的な知識をLLMsへ転移させるものである。私たちのアプローチは、官能基特徴に基づく専門的な決定木を訓練し、それらが学習した予測ルールを自然言語として言語化して、ルール強化された文脈学習を可能にする。これにより、SMILES文字列だけからは抽出が難しい構造的洞察をLLMsが活用できるようになる。さらに、バッグ法にヒントを得たテスト時のスケーリング手法であるルール整合性を導入する。これはRandom Forestからの多様なルールに基づく予測をアンサンブルする。

TDCベンチマークの22のADMET特性を対象とした実験は、TreeKDがLLMの性能を大幅に向上させ、SOTA（最先端）の専門モデルとのギャップを縮小し、分子特性予測の実用的な汎用モデルへと前進することを示している。

返却形式: {"translated": "翻訳されたHTML"}

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

分子性質予測の汎用大規模言語モデル: 専門モデルからの知識蒸留

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer