MolDA:大規模言語拡散モデルによる分子の分子理解と生成

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の多モーダル分子モデルの多くが自己回帰(左から右)バックボーンを用いており、環閉環(リングクロージャー)などのグローバルな化学的制約に対して適応が難しいこと、また生成中に構造誤りが蓄積しやすいことを指摘する。
  • 本論文では、自己回帰バックボーンを離散的大規模言語拡散モデルに置き換え、ハイブリッドなグラフエンコーダとQ-Formerを組み合わせて構造を言語トークン空間へ写像することで実現する、多モーダル分子フレームワーク「MolDA」を提案する。
  • 著者らは「Molecular Structure Preference Optimization」をマスク付き拡散向けに再定式化し、グローバルな整合性と化学的妥当性を高めるために双方向の反復的なdenoising(ノイズ除去)を強調する。
  • MolDAは、拡散ベースの定式化によって支えられた頑健な推論を目指しつつ、分子生成、キャプション付与、性質予測といった複数のタスクをサポートする枠組みとして提示される。
  • 本研究は、AR(自己回帰)的な帰納バイアスを超えて化学的に妥当な分子合成へと到達するためのモデルアーキテクチャ選択を前進させる研究貢献(arXivでの告知)として位置づけられている。