要旨: 最前線の理論におけるブレークスルーは、しばしば、具体的な図式表記と厳密な論理の組み合わせに依存します。マルチモーダル大規模言語モデル(MLLMs)は一般的な科学タスクにおいて有望であるものの、現在のベンチマークは、形式的な科学的表記に内在するグローバルな構造論理よりも、局所的な情報抽出に焦点を当てることが多いのが実情です。本研究では、フェインマン図タスクに焦点を当てた最初のベンチマークであるFeynmanBenchを導入します。これは、多段の図式的推論に対するAIの能力を評価するために設計されたものであり、保存則や対称性の制約を満たすこと、グラフのトポロジーを同定すること、図式表現と代数表現の間で変換すること、特定の規約とゲージのもとで散乱振幅を構築することが必要になります。大規模かつ再現可能な評価を支えるために、検証可能なトポロジー注釈と振幅結果を伴い、多様なフェインマン図を生成する自動化されたパイプラインを開発しました。私たちのデータベースは標準模型の電磁相互作用、弱い相互作用、強い相互作用を網羅し、100種類以上の異なるタイプを含み、2000件以上のタスクを備えています。最先端のMLLMに関する実験では、物理的制約の不安定な強制や、グローバルなトポロジー条件の違反など、体系的な失敗モードが明らかになり、科学的表記のための視覚的推論に対して物理学に基づいたベンチマークが必要であることが示されています。FeynmanBenchは、AIが科学的発見に効果的に関与できるかどうか、特に理論物理学の文脈において、論理的に厳密なテストを提供します。
FeynmanBench:図式的物理推論におけるマルチモーダルLLMのベンチマーク
arXiv cs.AI / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、局所的な情報抽出だけでなく、ファインマン図に基づく物理推論に対してマルチモーダルLLMを検証するための新しいベンチマーク「FeynmanBench」を提案する。
- 本ベンチマークは、多段階の能力(保存則や対称性の強制、グラフのトポロジーの特定、図式的形式と代数的形式の間の変換、定義された慣習やゲージのもとで散乱振幅を構築すること)を評価する。
- 自動化されたパイプラインにより、多様な標準模型のファインマン図が生成され、検証可能なトポロジー注釈と対応する振幅結果が付与されることで、大規模かつ再現可能な評価が可能になる。
- データセットは電磁相互作用・弱い相互作用・強い相互作用をカバーし、100種類以上の異なる図タイプを含み、2000件以上のタスクを提供する。
- 実験では、主要なマルチモーダルLLMに一貫した失敗パターンが示される。たとえば、物理的制約の強制が不安定であることや、グローバルなトポロジー推論が誤っていることなどであり、物理に根ざした視覚推論ベンチマークの必要性が強調される。




