BOOKAGENT:マルチエージェントによる認知キャリブレーションで安全性を意識したビジュアル・ナラティブをオーケストレーション
arXiv cs.CV / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文では、固定されたストーリー順に依存せず、ユーザードラフトから絵本をエンドツーエンドで生成することを目的とした、安全性を意識したマルチエージェント枠組み「BookAgent」を提案します。
- BookAgentは計画、脚本化、イラスト作成、そして全体的な不整合の修復を共同で行い、物語全体にわたるホリスティックなマルチモーダル・グラウンディングと一貫性を高めます。
- テキストの脚本とビジュアルのレイアウトをページごとに動的にキャリブレーションし、各ページでのマルチモーダル整合性を改善します。
- さらに、時間的(時系列)な検証と是正により、キャラクター同一性の破綻やストーリー論理の矛盾といったグローバルな不整合を減らし、子ども向けの安全制約も扱います。
- 実験では、BookAgentが物語のまとまり、視覚的整合性、安全コンプライアンスの点で既存手法を大きく上回ると報告され、実装はGitHubで公開予定です。




