QED:オープンな研究課題に対する数学的証明を生成するためのオープンソース・マルチエージェント・システム

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、最先端LLMが未解決の研究課題に対して「独創的で自明でない」証明を生成できるかを検証し、ベンチマークでの成功が研究レベルの立証には必ずしも結びつかないことを明らかにした。
  • LLMを用いた証明生成には、コンテキスト汚染、引用の幻覚、重要ステップでのごまかし(ハンドウェービング)、証明への労力の割り当てミス、証明計画の不安定化、検証の焦点の欠如、問題の改変や単一モデルのボトルネックといった7つの失敗モードがあると特定した。
  • 著者らは、そのギャップは主にモデルの能力差というよりシステム設計の問題だと主張し、各失敗モードに対して提案手法の設計判断を対応づけた。
  • ドメイン専門家が提示した応用解析・PDEの5つの未解決問題に対する評価では、QED(失敗モードを狙って設計されたマルチエージェントのオープンソース証明システム)が3問について正しい証明を生成し、寄与者自身が「独創的で非自明」として検証した。
  • QEDはオープンソースとして公開されており、成功例は専門家による検証を経たものとして報告されている。

QED:オープンな研究課題に対する数学的証明を生成するためのオープンソース・マルチエージェント・システム | AI Navigate