BOOKAGENT:マルチエージェントによる認知キャリブレーションで安全性を意識したビジュアル・ナラティブをオーケストレーション

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • この論文では、固定されたストーリー順に依存せず、ユーザードラフトから絵本をエンドツーエンドで生成することを目的とした、安全性を意識したマルチエージェント枠組み「BookAgent」を提案します。
  • BookAgentは計画、脚本化、イラスト作成、そして全体的な不整合の修復を共同で行い、物語全体にわたるホリスティックなマルチモーダル・グラウンディングと一貫性を高めます。
  • テキストの脚本とビジュアルのレイアウトをページごとに動的にキャリブレーションし、各ページでのマルチモーダル整合性を改善します。
  • さらに、時間的(時系列)な検証と是正により、キャラクター同一性の破綻やストーリー論理の矛盾といったグローバルな不整合を減らし、子ども向けの安全制約も扱います。
  • 実験では、BookAgentが物語のまとまり、視覚的整合性、安全コンプライアンスの点で既存手法を大きく上回ると報告され、実装はGitHubで公開予定です。

Abstract

大規模生成モデル(LGMs)における最近の進歩は、多モーダル生成に革命をもたらしました。しかし、絵本の生成は依然として未解決の課題です。従来の研究は主にこのタスクを別々の段階に分解して扱ってきたため、全体論的な多モーダルのグラウンディングは限定的でした。さらに、テキストのみ、または画像のみの生成に対して安全性のアライメントが研究されている一方で、既存研究は、物語計画およびシーケンス単位の多モーダル検証に、子どもに特化した安全制約を組み込むことはほとんどありません。これらの制約に対処するため、私たちはBookAgentを提案します。BookAgentは、高品質で安全性に配慮した視覚的ナラティブを生成するための、安全性を意識したマルチエージェント協調フレームワークです。固定された物語の流れの順序を前提とする従来の物語視覚化モデルとは異なり、BookAgentは、ユーザードラフトからのエンドツーエンドな絵本合成を目的とし、共同で計画し、脚本を書き、イラストを描き、さらに不整合をグローバルに修復します。精密な多モーダルのグラウンディングを確実にするため、BookAgentはテキスト脚本と視覚レイアウト間のページ単位の整合を、動的に校正します。加えて、BookAgentは時間的次元から全体的な一貫性を校正します。すなわち、登場人物の同一性や物語ロジックに関するグローバルな不整合を、検証してから修正することで確認します。大規模な実験により、BookAgentは、ナラティブの整合性、視覚的な一貫性、安全性への適合において、既存手法を大幅に上回ることが示されています。これは、複雑な多モーダル作成において信頼できるエージェントのための堅牢なパラダイムを提供します。実装は https://github.com/bogao-code/BookAgent/tree/main で公開します。