ReadMOF: Structure-Free Semantic Embeddings from Systematic MOF Nomenclature for Machine Learning

arXiv cs.LG / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • ReadMOFは、IUPACスタイルのMOF命名法(CSD由来の体系的化学名)を入力として、原子座標や結合/グラフ情報なしに構造-物性関係を学習する“nomenclature-free”な機械学習フレームワークを提案しています。
  • 事前学習済み言語モデルを用いて体系的MOF名をベクトル埋め込みへ変換し、従来の構造ベース記述子に近い表現を得られるとしています。
  • この埋め込みは物性予測、類似検索、クラスタリングなどの材料インフォマティクス用途で、幾何情報に依存する手法と同等の性能を示すと報告されています。
  • 大規模言語モデルと組み合わせることで、テキスト入力のみから化学的に意味のある推論も可能になる可能性を示し、幾何非依存・スケーラブルで解釈可能な表現として言語駆動の材料探索を拡げると結論づけています。

Abstract

Systematic chemical names, such as IUPAC-style nomenclature for metal-organic frameworks (MOFs), contain rich structural and compositional information in a standardized textual format. Here we introduce ReadMOF, which is, to our knowledge, the first nomenclature-free machine learning framework that leverages these names to model structure-property relationships without requiring atomic coordinates or connectivity graphs. By employing pretrained language models, ReadMOF converts systematic MOF names from the Cambridge Structural Database (CSD) into vector embeddings that closely represent traditional structure-based descriptors. These embeddings enable applications in materials informatics, including property prediction, similarity retrieval, and clustering, with performance comparable to geometry-dependent methods. When combined with large language models, ReadMOF also establishes chemically meaningful reasoning ability with textual input only. Our results show that structured chemical language, interpreted through modern natural language processing techniques, can provide a scalable, interpretable, and geometry-independent alternative to conventional molecular representations. This approach opens new opportunities for language-driven discovery in materials science.