大規模言語モデルによるバイオ分子モデリングの限界:スケール横断の評価

arXiv cs.LG / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMがバイオ分子創出において有効であることが、多スケールの生物学的問題にわたって十分に確立されていないと主張し、より厳密な評価手法の必要性を示している。
  • 4つの難易度レベルにまたがる26の下流タスクを含む、統一されたスケール横断ベンチマーク「BioMol-LLM-Bench」を導入し、ツール拡張型の能力を評価するための計算ツールを統合している。
  • 13の代表的なモデルを対象にした評価の結果、連鎖思考(chain-of-thought)プロンプトは生物学タスクでは効果が限定的、あるいは負の効果すらあることが分かった。
  • 結果として、長いバイオ分子配列ではハイブリッドなmamba-attentionアーキテクチャがより優れ、また教師あり微調整は専門性を高める一方で汎化性能を低下させ得ることが示されている。
  • 著者らは、現行のLLMは分類では比較的良好な成績を示すが、困難な回帰タスクでは苦戦する傾向があると結論づけ、将来のバイオ分子LLMモデリングに向けた指針を提示している。