MolViBench:分子バイブ・コーディングでLLMを評価する

arXiv cs.CL / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 分子バイブ・コーディングは、化学者がLLMと協働して分子タスク向けの実行可能なプログラムを生成するワークフロー・パラダイムとして説明され、ツール制約のある化学エージェントよりも柔軟性があるとされる。
  • 既存のベンチマークは不十分だと主張されており、一般的なコード生成データセットは化学的推論を欠き、化学系ベンチマークは多くの場合、実行可能なコード生成ではなく知識の想起や物性予測に焦点を当てている。
  • MolViBenchは分子バイブ・コーディング専用として提案され、358件のキュレーション済みタスクを5つの認知レベルにわけ、さらに12の実世界の創薬ワークフローを含む。
  • 生成コードの評価には多層的な枠組みが提案され、型を意識した出力比較で実行可能性を測り、ASTベースのAPIセマンティクスに基づくフォールバック解析で化学的正しさも評価する。
  • このベンチマークで先端のコード系LLM 9モデルを評価し、分子バイブ・コーディングの実世界の3つのパラダイムも比較することで、AI加速型の分子創薬におけるモデルの強みと弱みの診断を目指している。

Abstract

分子バイブ・コーディング(Molecular Vibe Coding)は、化学者がLLMと対話して分子タスクのための実行可能なプログラムを生成するというパラダイムであり、あらかじめツールが定義された化学エージェントに代わる柔軟な選択肢として登場してきました。これにより、化学者は任意に複雑でカスタマイズされたワークフローを表現できます。一般的なコーディング課題とは異なり、分子コーディングには、LLMが協調して備えるべきプログラミング能力、分子理解、そしてドメイン固有の推論能力という独特の課題があります。しかし、既存のベンチマークは依然として切断されています。HumanEvalやSWE-benchのような一般的なコード生成ベンチマークは化学の知識を必要としません。一方で、S^2-BenchやChemCoTBenchのような化学に焦点を当てたベンチマークは、知識の想起や性質予測を評価するものであり、実行可能なコード生成を評価するものではありません。このギャップを埋めるために、私たちは分子バイブ・コーディング向けの初のベンチマークであるMolViBenchを導入します。MolViBenchは5つの認知レベルにまたがって358の厳選タスクで構成され、単一APIの想起からエンドツーエンドの仮想スクリーニング・パイプライン設計までを含みます。さらに、現実世界の12の創薬ワークフローにわたります。生成されたコードを厳密に評価するために、型に着目した出力比較と、AST(抽象構文木)に基づくAPIセマンティクスのフォールバック解析を組み合わせる、多層的な評価フレームワークも提案します。これにより、実行可能性と化学的正しさを同時に測定します。私たちは9つの最先端のコーディングLLMを体系的に評価し、3つの現実世界の分子バイブ・コーディングのパラダイムを比較します。これにより、AI支援による分子探索におけるLLMのコーディング能力を診断するための、実用的かつきめ細かなテストベッドを提供します。