AI Navigate

Feynman: 知識を組み込んだ図解エージェントによるスケーラブルな視覚デザイン

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • Feynmanは、ドメイン特化の知識コンポーネント('アイデア')、コード計画、宣言的プログラムを用いて図と根拠のあるキャプションを作成するスケーラブルな図解生成パイプラインを提示します。
  • この図はPenrose図解システムによってレンダリングされ、視覚的意味を保持しつつ、レイアウトの多様性を高めるためにランダム性を導入する最適化ベースのレンダリングが適用されます。
  • このアプローチは、大規模で高い整合性を持つ図-キャプションデータセット(100kペア超)と、Diagrammaと呼ばれる視覚言語ベンチマークを作成し、視覚言語モデルにおける視覚推論を評価します。
  • 著者らはデータセット、ベンチマーク、そして完全なエージェントパイプラインをオープンソースとして公開する予定で、図の作成と評価にかかるコストと時間を削減することを目指しています。

要約:視覚デザインは、最先端のマルチモーダルAIシステムの重要な応用の一つです。これらのシステムを向上させるには、規模の大きい高品質な視覚言語データが必要です。インターネット上の画像とテキストデータが豊富にあるにもかかわらず、知識豊富でよく整合した画像-テキストのペアはまれです。本論文では、私たちのエージェントFeynmanを用いて構築した、スケーラブルな図生成パイプラインを提示します。図を作成するために、Feynmanはまずドメイン特有の知識コンポーネント(「アイデア」)を列挙し、アイデアに基づいてコード設計を行います。計画を得たら、Feynmanはアイデアを単純な宣言型プログラムへ翻訳し、フィードバックを受けて図を視覚的に洗練させるために反復します。最後に、宣言型プログラムはPenroseダイアグラム作成システムによってレンダリングされます。Penroseの最適化ベースのレンダリングは視覚的意味を保持しつつ、レイアウトに新たなランダム性を注入することで、視覚的一貫性と多様性を備えた図を生み出します。その結果、Feynmanはごく少ないコストと時間で、根拠のあるキャプションとともに図を作成できます。Feynmanを用いて、10万件を超えるよく整列した図-キャプション対のデータセットを作成しました。また、新たに生成したデータから視覚言語ベンチマークDiagrammaを作成しました。Diagrammaは、視覚言語モデルの視覚的推論能力を評価するために使用できます。データセット、ベンチマーク、および完全なエージェントパイプラインをオープンソースプロジェクトとして公開する予定です。