PolyReal:実世界の高分子科学ワークフローのためのベンチマーク

arXiv cs.CV / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多峰性(マルチモーダル)の大規模言語モデル(MLLMs)を、抽象的な知識問題だけでなく実世界の高分子科学ワークフローに対して検証するための新しいマルチモーダル・ベンチマーク「PolyReal」を提案する。
  • PolyRealは、高分子実験のライフサイクルに沿って、基礎知識の活用、実験室の安全性分析、実験メカニズムの推論、生データの抽出、性能/応用の探索といった、実務に根ざした5つの能力を評価する。
  • 主要なMLLMに対する結果から、能力の偏りが示される。すなわち、実験メカニズムの推論のような知識集約型タスクではうまく機能する一方で、実験室の安全性分析や生データからの情報抽出といった実務ベースのタスクでは急激に性能が低下する。
  • これらの知見は、MLLMが科学について推論できる能力と、その知識を文脈依存で運用可能な実験室の設定に適用する能力との間に、大きなギャップがあることを示唆している。
  • PolyRealは、実科学的な実験ワークフローを想定したAIシステムを評価するための、より実用的な評価ツールとして位置付けられる。

Abstract

マルチモーダル大規模言語モデル(MLLM)は一般的な領域では優れた性能を発揮しますが、複雑で現実の科学においては苦手です。我々は、化学、物理、生物学、工学にまたがる学際分野である高分子科学が、多様なマルチモーダルデータを持つため、重要度の高い試験場として理想的であると主張します。しかし、高分子科学に関する既存のベンチマークは、現実のワークフローをほとんど考慮しておらず、そのため実用上の有用性が制限され、実験の全ライフサイクルにわたって(実務に根ざした形で)MLLMを体系的に評価できていません。私たちは、現実の科学的実践に基づく新しいマルチモーダルベンチマーク PolyReal を導入し、高分子実験の全ライフサイクルにおいて MLLM を評価します。PolyReal は5つの重要な能力をカバーしています:(1)基礎知識の適用、(2)実験室の安全分析、(3)実験メカニズム推論、(4)生データ抽出、(5)性能と応用の探索。PolyReal における主要な MLLM の評価により、能力の不均衡が明らかになりました。モデルは知識集約的な推論(例:実験メカニズム推論)では良好な性能を示す一方で、実践に基づくタスク(例:実験室の安全分析や生データ抽出)では大きく性能が低下します。これは、抽象的な科学知識と、それを実務上の文脈に依存して適用することの間に深刻なギャップがあることを示しており、これらの現実世界のタスクが MLLM にとって依然として難しいことを浮き彫りにします。したがって PolyReal は、この評価ギャップの解消に貢献するとともに、現実の科学的ワークフローにおける AI システムを評価するための実践的なベンチマークを提供します。