ManiBench: A Benchmark for Testing Visual-Logic Drift and Syntactic Hallucinations in Manim Code Generation
arXiv cs.AI / 3/17/2026
📰 NewsTools & Practical UsageModels & Research
Key Points
- ManiBenchはManim CEコードを生成するLLMの性能を評価するベンチマークで、時間的忠実度とAPIのバージョン適合性を重視します。
- 2つの主要な失敗モードを対象します。Syntactic Hallucinations(存在しないまたは廃止済みのManim APIを参照する構文誤認)とVisual-Logic Drift(意図した数学的論理からビジュアルが逸脱する現象)です。
- 難易度5段階・計算論、線形代数、確率、位相、AIの5分野にまたがる150–200問を用意し、3Blue1BrownのManimGLソースを基に設計されています。
- 評価はExecutability、Version-Conflict Error Rate、Alignment Score、Coverage Scoreの4軸で行われ、複数モデルと prompting戦略を横断して評価するオープンソースの評価フレームワークを提供します。
- コード・データ・ベンチマークスイートはGitHubとHuggingFaceで公開されています。
Related Articles
We asked 200 ChatGPT users their biggest frustration. All top 5 answers are problems ChatGPT Toolbox solves.
Reddit r/artificial
I Built an AI That Reviews Every PR for Security Bugs — Here's How (2026)
Dev.to
[R] Combining Identity Anchors + Permission Hierarchies achieves 100% refusal in abliterated LLMs — system prompt only, no fine-tuning
Reddit r/MachineLearning
How I Built an AI SDR Agent That Finds Leads and Writes Personalized Cold Emails
Dev.to
Complete Guide: How To Make Money With Ai
Dev.to