FRIGID：質量スペクトルから学習・推論時に拡張する拡散ベースの分子生成

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

本研究では、質量スペクトルを条件にして中間フィンガープリント表現と決定した化学式を用い、分子構造を生成する新しい拡散言語モデル・フレームワーク「FRIGID」を提案する。
FRIGIDは、ラベルなし分子構造が数億規模という大規模データで学習され、拡散言語モデルの設計により学習を行っている。
推論時のスケーリングとして、フォワード分裂（フラグメンテーション）モデルでスペクトル不整合なフラグメントを特定し、狙いを定めたリマスキングとデノイジングで精緻化する手法を示した。
実験ではFRIGIDがMassSpecGymでTop-1が18%超を達成し、NPLIB1では既存の最先端手法に比べTop-1精度を3倍に向上したと報告されている。
さらに推論計算量を増やすほど性能が概ね対数線形に伸びることを示し、計算量で改良を続ける分子構造推定（de novo structural elucidation）の新しい方向性を示唆している。

要旨: 本研究では、FRIGIDという枠組みを提示します。FRIGIDは新規の拡散言語モデルであり、中間のフィンガープリント表現および決定された化学式を介して質量スペクトルに条件付けされた分子構造を生成します。これらは、ラベルなし構造の数億規模で学習します。次に、前向きフラグメンテーションモデルがどのようにして、スペクトルと整合しない断片を特定し、標的な再マスキングとデノイジングによってそれらを洗練することで、推論時スケーリングを可能にするかを示します。FRIGIDはすでに拡散基盤により強力な性能を達成していますが、推論時スケーリングによって精度は大幅に向上し、難度の高いMassSpecGymベンチマークでTop-1精度18%超を達成し、NPLIB1における主要手法のTop-1精度を3倍にします。さらに、追加の実証分析により、FRIGIDは推論時の計算量を増やすにつれて対数線形的な性能スケーリングを示すことがわかり、de novo構造推定の継続的な改善に向けて有望な新しい方向性が開かれます。FRIGIDのコードは https://github.com/coleygroup/FRIGID で公開されています