Abstract
分子特性の最適化は創薬において中核となる一方、多くの深層学習手法はブラックボックス的なスコアリングに依存しており、足場(scaffold)を保持するための制御が限定的であるため、不安定または生物学的に不 plausible な編集を生み出しがちです。大規模言語モデル(LLMs)は分子生成器として有望ですが、最適化は、化学に基づいた嗜好(preference)による教師信号と原理に基づくデータキュレーションの欠如により依然として制約されています。私たちは、
\textbf{Scaffold-Conditioned Preference Triplets (SCPT)} を提案します。これは、足場アライメントと、妥当性・合成可能性・意味のある特性向上のための化学駆動フィルタによって、類似性制約付きのトリプレット
\langle\text{scaffold}, \text{better}, \text{worse}\rangle を構築するパイプラインです。これらの嗜好を用いて、事前学習済みの分子LLMを条件付きエディタとしてアラインし、足場を保持しながら特性を改善する編集を可能にします。単一目的および多目的のベンチマークにおいて、SCPTは競合するベースラインよりも高い足場類似度を維持しつつ、最適化の成功率と特性の向上幅を改善します。代表的な非LLMの分子最適化手法と比較すると、SCPTで訓練されたLLMは、足場に制約を課した最適化や多目的最適化により適しています。さらに、単一特性および二特性の教師信号で訓練されたモデルは、三特性タスクへ効果的に汎化し、限定的な高次の教師信号のもとでの有望な外挿的(extrapolative)汎化が示唆されます。SCPTはまた、制御可能なデータ構築の調整ノブを提供し、予測可能な類似度—向上(similarity-gain)フロンティアをもたらすことで、さまざまな最適化レジームへの体系的な適応を可能にします。