BioMiner:論文からのタンパク質-リガンドの生物活性データを自動採掘するマルチモーダルシステム
arXiv cs.AI / 2026/4/25
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文では、BioMinerというマルチモーダルの枠組みを提案し、論文からタンパク質-リガンドの生物活性データを自動抽出する際に「生物活性のセマンティクス」と「リガンド構造の再構築」を明確に分離します。
- BioMinerは生物活性の意味を直接推論で推定し、一方でリガンド構造は化学的に根拠づけられた視覚的セマンティック推論(マルチモーダルLLMを化学的にグラウンディングされた視覚表現で動かし、構造間の関係を推論)により解決し、正確な分子構築は化学ドメインのツールに委ねます。
- 評価と開発のために、500本の出版物からキュレーションした16,457件の生物活性エントリで構成される包括的ベンチマーク「BioVista」も提示しています。
- BioMinerは生物活性トリプレットに対してF1スコア0.32を報告し、実運用面では3つのユースケースで効果を示しました(事前学習データベース構築で下流性能が3.9%向上、人手支援型ワークフローでNLRP3の高品質データ数が増加しQSAR比で38.6%改善、またPoseBustersで手作業より5.59倍高速かつ精度5.75%向上)。
- 全体として、本研究はセマンティクス理解(テキスト・表・図に分散)と化学に根ざした構造再構築を組み合わせることで、自動バイオアクティビティ抽出の重要なボトルネックに対処しています。



