分子特性のインコンテキスト予測のための表形式ファウンデーションモデル

arXiv cs.LG / 2026/4/20

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、タスク固有の微調整を不要にし、MLの専門知識の負担も減らしつつ、インコンテキスト学習によって分子特性を予測する表形式ファウンデーションモデル(TFM)を提案している。
  • 医薬品ベンチマークと化学工学データの両方で、少〜中規模データ領域の実験を行い、微調整よりも計算コストを抑えながら高い予測精度が得られることを示している。
  • TFMsの評価では、凍結した分子ファウンデーションモデル埋め込みに加えて、従来の記述子やフィンガープリントも用いられ、表現(レプレゼンテーション)の選択が性能に強く影響することが分かった。
  • TFMsとCheMeleon埋め込みを組み合わせると、MoleculeACEの30タスクで最大100%の勝率を達成し、RDKit2dやMordredのようなコンパクトな記述子セットでも良好な代替が示された。
  • 総じて、適切な分子表現と組み合わせたTFMによるインコンテキスト学習は、創薬やプロセス設計などの実運用で高精度かつ低コストな特性予測手法になり得ることを示唆している。

Abstract

正確な分子特性の予測は創薬、触媒、プロセス設計の中心ですが、現実の応用では小規模データによって制限されることが多いです。分子基盤モデルは、転移可能な分子表現を学習することで有望な方向性を示しています。しかし、これらは通常、タスク固有の微調整を必要とし、機械学習の専門知識を要し、さらに古典的なベースラインを上回ることがしばしばありません。表形式基盤モデル(TFM)は、本質的に異なるパラダイムを提供します。すなわち、インコンテキスト学習によって予測を行い、推論の際にタスク固有の学習を必要としないのです。ここでは、標準化された製薬ベンチマークと化学工学データセットの両方にわたって、低〜中規模データの領域でTFMを評価します。評価では、凍結した分子基盤モデル表現に加えて、古典的な記述子とフィンガープリントも扱います。ベンチマーク全体で、この手法は微調整と比べて計算コストを削減しつつ、優れた予測性能を示しており、その利点は実際の工学データ設定にも引き継がれます。特に、TFMとCheMeleon埋め込みを組み合わせることで、30のMoleculeACEタスクにおいて最大100 %の勝率を達成します。一方で、コンパクトなRDKit2dおよびMordred記述子は、記述子ベースの有力な代替手段を提供します。分子表現はTFMの性能を左右する重要な決定因子として現れており、分子基盤モデルの埋め込みと2D記述子セットの両方が、多くのタスクにおいて古典的な分子フィンガープリントに対して大きな向上をもたらします。これらの結果は、TFMによるインコンテキスト学習が、実用的な応用における特性予測のための、非常に高精度で費用対効果の高い代替手段を提供することを示唆しています。