ManiBench: Manim CEコード生成における視覚-論理のずれと構文的幻覚を検証するベンチマーク

arXiv cs.AI / 2026/3/17

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

ManiBenchはManim CEコードを生成する大規模言語モデル（LLM）の性能を評価するベンチマークで、時間的忠実度とAPIのバージョン適合性を重視します。
2つの主要な失敗モードを対象します。Syntactic Hallucinations（存在しないまたは廃止済みのManim APIを参照する構文誤認）とVisual-Logic Drift（意図した数学的論理からビジュアルが逸脱する現象）です。
難易度5段階・計算論、線形代数、確率、位相、AIの5分野にまたがる150–200問を用意し、3Blue1BrownのManimGLソースを基に設計されています。
評価は実行可能性、バージョン衝突エラー率、整合性スコア、カバレッジスコアの4軸で行われ、複数モデルとプロンプト戦略を横断して評価するオープンソースの評価フレームワークを提供します。
コード・データ・ベンチマークスイートはGitHubとHuggingFaceで公開されています。

要約：従来のベンチマークである HumanEval や MBPP は論理と構文を効果的に検証しますが、コードが動的で教育的なビジュアルを生成しなければならない場合には失敗します。 ManiBench を導入します。ManiBench は、Manim CE コードの生成における LLM の性能を評価する専門的なベンチマークで、時間的忠実性とバージョン対応 API の正確性が重要です。 ManiBench は二つの主要な失敗モードを対象とします：構文的幻視（存在しないまたは非推奨の Manim API を参照する有効な Python コード）および Visual-Logic Drift（タイミングエラーや因果関係の欠如を通じて、生成されたビジュアルが意図された数学的論理と逸脱する現象）。ベンチマークは、微積分、線形代数、確率、位相、AI にまたがる五つの難易度レベルにわたる150〜200の問題で構成され、3Blue1Brown の ManimGL ソース（53,000 行、143 のシーンクラス）の分析に基づいています。評価は、実行可能性、バージョン衝突エラー率、整合性スコア、カバレッジスコアの四層フレームワークを用いて行われます。複数のモデルとプロンプト戦略に跨る評価を自動化するオープンソースのフレームワーク。コード、データ、ベンチマークスイートは https://github.com/nabin2004/ManiBench に公開されています。データセットは https://huggingface.co/datasets/nabin2004/ManiBench にホストされています。