PolyReal:実世界の高分子科学ワークフローのためのベンチマーク
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多峰性(マルチモーダル)の大規模言語モデル(MLLMs)を、抽象的な知識問題だけでなく実世界の高分子科学ワークフローに対して検証するための新しいマルチモーダル・ベンチマーク「PolyReal」を提案する。
- PolyRealは、高分子実験のライフサイクルに沿って、基礎知識の活用、実験室の安全性分析、実験メカニズムの推論、生データの抽出、性能/応用の探索といった、実務に根ざした5つの能力を評価する。
- 主要なMLLMに対する結果から、能力の偏りが示される。すなわち、実験メカニズムの推論のような知識集約型タスクではうまく機能する一方で、実験室の安全性分析や生データからの情報抽出といった実務ベースのタスクでは急激に性能が低下する。
- これらの知見は、MLLMが科学について推論できる能力と、その知識を文脈依存で運用可能な実験室の設定に適用する能力との間に、大きなギャップがあることを示唆している。
- PolyRealは、実科学的な実験ワークフローを想定したAIシステムを評価するための、より実用的な評価ツールとして位置付けられる。



