MolViBench:分子バイブ・コーディングでLLMを評価する
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 分子バイブ・コーディングは、化学者がLLMと協働して分子タスク向けの実行可能なプログラムを生成するワークフロー・パラダイムとして説明され、ツール制約のある化学エージェントよりも柔軟性があるとされる。
- 既存のベンチマークは不十分だと主張されており、一般的なコード生成データセットは化学的推論を欠き、化学系ベンチマークは多くの場合、実行可能なコード生成ではなく知識の想起や物性予測に焦点を当てている。
- MolViBenchは分子バイブ・コーディング専用として提案され、358件のキュレーション済みタスクを5つの認知レベルにわけ、さらに12の実世界の創薬ワークフローを含む。
- 生成コードの評価には多層的な枠組みが提案され、型を意識した出力比較で実行可能性を測り、ASTベースのAPIセマンティクスに基づくフォールバック解析で化学的正しさも評価する。
- このベンチマークで先端のコード系LLM 9モデルを評価し、分子バイブ・コーディングの実世界の3つのパラダイムも比較することで、AI加速型の分子創薬におけるモデルの強みと弱みの診断を目指している。




