PaperBanana:AI科学者のための学術イラストを自動化する

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • この記事では、VLM(Vision-Language Models)と画像生成モデルを用いて、AI科学者向けに出版品質の学術イラストを自動的に作成するエージェント型フレームワーク「PaperBanana」を紹介します。
  • PaperBananaは、専門的なステップ—参照の取得、内容とスタイルの計画、画像のレンダリング、そして反復的な自己批評—を調整することで、研究ワークフローにおけるイラスト作成のボトルネックを削減します。
  • 複数の領域およびイラストスタイルにまたがる、NeurIPS 2025の方法論図から採取した292のテストケースで構成されるベンチマーク「PaperBananaBench」を提案します。
  • 実験の結果、PaperBananaは、出典への忠実性、簡潔さ、読みやすさ、美的品質といった主要な評価基準において、既存のベースラインを上回ることが示されています。また、統計プロットも効果的に生成できます。
  • 本研究は、論文作成のエンドツーエンドを効率化することを目標に、より自律的なAI科学者パイプラインに向けて、実用的な自動イラスト生成能力を位置づけます。

Abstract

Despite rapid advances in autonomous AI scientists powered by language models, generating publication-ready illustrations remains a labor-intensive bottleneck in the research workflow. To lift this burden, we introduce PaperBanana, an agentic framework for automated generation of publication-ready academic illustrations. Powered by state-of-the-art VLMs and image generation models, PaperBanana orchestrates specialized agents to retrieve references, plan content and style, render images, and iteratively refine via self-critique. To rigorously evaluate our framework, we introduce PaperBananaBench, comprising 292 test cases for methodology diagrams curated from NeurIPS 2025 publications, covering diverse research domains and illustration styles. Comprehensive experiments demonstrate that PaperBanana consistently outperforms leading baselines in faithfulness, conciseness, readability, and aesthetics. We further show that our method effectively extends to the generation of high-quality statistical plots. Collectively, PaperBanana paves the way for the automated generation of publication-ready illustrations.