概要: 金属有機フレームワーク(MOF)に対するIUPACスタイルの命名法のような体系的な化学名には、標準化されたテキスト形式の中に、豊富な構造および組成に関する情報が含まれています。ここではReadMOFを紹介します。私たちの知る限り、ReadMOFは、原子座標や結合グラフを必要とせずに、これらの名前を用いて構造—物性関係をモデル化する、命名法を使わない(nomenclature-free)最初の機械学習フレームワークです。事前学習済みの言語モデルを用いることで、ReadMOFはケンブリッジ構造データベース(CSD)にある体系的なMOF名を、従来の構造ベース記述子をよく表すベクトル埋め込みへと変換します。この埋め込みにより、物性予測、類似検索、クラスタリングなどを含む材料インフォマティクスの応用が可能となり、その性能は幾何学に依存する手法と同等です。さらに、大規模言語モデルと組み合わせることで、ReadMOFはテキスト入力のみで化学的に意味のある推論能力も確立します。私たちの結果は、現代的な自然言語処理技術によって解釈された構造化された化学言語が、従来の分子表現に対して、スケーラブルで解釈可能かつ幾何学に依存しない代替手段を提供し得ることを示しています。このアプローチは、材料科学における言語主導の発見に新たな機会を切り開きます。
ReadMOF:体系的MOF命名法から得る構造非依存のセマンティック埋め込みによる機械学習
arXiv cs.LG / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ReadMOFは、IUPACスタイルのMOF命名法(CSD由来の体系的化学名)を入力として、原子座標や結合/グラフ情報なしに構造-物性関係を学習する「nomenclature-free(命名法非依存)」な機械学習フレームワークを提案しています。
- 事前学習済み言語モデルを用いて体系的MOF名をベクトル埋め込みへ変換し、従来の構造ベース記述子に近い表現を得られるとしています。
- この埋め込みは物性予測、類似検索、クラスタリングなどの材料インフォマティクス用途で、幾何情報に依存する手法と同等の性能を示すと報告されています。
- 大規模言語モデルと組み合わせることで、テキスト入力のみから化学的に意味のある推論も可能になる可能性を示し、幾何非依存・スケーラブルで解釈可能な表現として言語駆動の材料探索を拡げると結論づけています。




