要旨: 分子構造と自然言語を橋渡しすることは、制御可能な設計に不可欠です。自己回帰モデルは長距離依存関係に苦戦します。一方で、標準的な拡散プロセスは位置に一様な破壊(汚染)を適用するため、構造的に情報を持つトークンを歪めてしまう可能性があります。私たちは、テキスト条件付き分子生成と分子キャプション付けという2つの対応課題に対する統一拡散フレームワークであるBiMol-Diffを提案します。重要な構成要素はトークン認識(token-aware)ノイズスケジュールであり、トークンの回復の難しさに基づいて位置依存の破壊を割り当てます。これにより、前向き(forward)過程の間、回復しにくい部分構造を保持します。ChEBI-20およびM3-20Mにおいて、BiMol-Diffは分子の再構成を改善し、Exact Matchで相対的な15.4%の向上を達成するとともに、比較ベースラインの中で最良のBLEUおよびBERTScoreを獲得するなど、強力なキャプション付け結果を示します。これらの結果は、トークン認識のノイズ付与が、分子の構造と言語のモデリングにおける忠実性を高めることを示しています。
BiMol-Diff:分子生成とキャプション生成のための統一拡散フレームワーク
arXiv cs.CL / 2026/4/28
📰 ニュースModels & Research
要点
- BiMol-Diffは、分子構造と自然言語を結び付けることで、テキスト条件付き分子生成と分子キャプション生成の両方に対応する統一拡散フレームワークです。
- 本手法は、回復が難しいトークンほど適切に保つことを目的として、トークンの回復困難度に基づく位置依存のノイズスケジュール(token-aware)を導入します。
- ChEBI-20およびM3-20Mのベンチマークで分子再構成が改善され、Exact Matchで15.4%の相対的な向上が報告されています。
- キャプション生成でも、比較ベースラインの中で最高のBLEUおよびBERTScoreを達成し、強い性能を示しました。
- 研究では、token-awareなノイズ付与が分子の構造・言語モデリングにおける忠実性を高められる可能性を示しています。



