BioMiner:論文からのタンパク質-リガンドの生物活性データを自動採掘するマルチモーダルシステム

arXiv cs.AI / 2026/4/25

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文では、BioMinerというマルチモーダルの枠組みを提案し、論文からタンパク質-リガンドの生物活性データを自動抽出する際に「生物活性のセマンティクス」と「リガンド構造の再構築」を明確に分離します。
  • BioMinerは生物活性の意味を直接推論で推定し、一方でリガンド構造は化学的に根拠づけられた視覚的セマンティック推論(マルチモーダルLLMを化学的にグラウンディングされた視覚表現で動かし、構造間の関係を推論)により解決し、正確な分子構築は化学ドメインのツールに委ねます。
  • 評価と開発のために、500本の出版物からキュレーションした16,457件の生物活性エントリで構成される包括的ベンチマーク「BioVista」も提示しています。
  • BioMinerは生物活性トリプレットに対してF1スコア0.32を報告し、実運用面では3つのユースケースで効果を示しました(事前学習データベース構築で下流性能が3.9%向上、人手支援型ワークフローでNLRP3の高品質データ数が増加しQSAR比で38.6%改善、またPoseBustersで手作業より5.59倍高速かつ精度5.75%向上)。
  • 全体として、本研究はセマンティクス理解(テキスト・表・図に分散)と化学に根ざした構造再構築を組み合わせることで、自動バイオアクティビティ抽出の重要なボトルネックに対処しています。

Abstract

医薬品探索にとって、文献に公開されたタンパク質-リガンドの生物活性データは不可欠ですが、急速に増大する文献に手動キュレーションが追いつくのは困難です。自動の生物活性抽出は、テキスト、表、図に分散している生化学的セマンティクスを解釈するだけでなく、化学的に正確なリガンド構造(例:マルクッシュ構造)を再構築することも要求されるため、依然として難しい課題です。このボトルネックに対処するため、BioMiner を提案します。BioMiner は、生物活性セマンティクスの解釈とリガンド構造の構築を明示的に分離するマルチモーダル抽出フレームワークです。BioMiner では、生物活性セマンティクスは直接的な推論によって推定され、一方で化学構造は、化学構造に基づく視覚的セマンティック推論パラダイムによって解決されます。このパラダイムでは、マルチモーダル大規模言語モデルが化学的に基盤づけられた視覚表現上で動作し、構造間の関係を推論し、その後の厳密な分子構築は領域の化学ツールに委ねます。厳密な評価と手法開発のために、さらに 500 件の出版物からキュレーションした 16,457 件の生物活性エントリから成る包括的なベンチマーク BioVista を構築します。BioMiner は抽出能力を検証し、定量的なベースラインを提供し、生物活性トリプレットに対して F1 スコア 0.32 を達成します。BioMiner の実用性は 3 つのアプリケーションによって示されます:(1)11,683 本の論文から 82,262 件のデータを抽出して事前学習データベースを構築し、下流モデルの性能を 3.9% 向上させる;(2)ヒューマン・イン・ザ・ループのワークフローを可能にし、高品質な NLRP3 の生物活性データの数を 2 倍にし、28 の QSAR モデルに対して 38.6% の改善に寄与し、さらに新規スキャフォールドを持つ 16 件のヒット候補を同定する;(3)タンパク質-リガンド複合体の生物活性注釈を加速し、PoseBusters データセットにおいて手動ワークフローに比べ 5.59 倍の速度向上と 5.75% の精度向上を達成する。