要旨: 大規模言語モデル(LLM)は、特にスライド生成において、エージェント的タスクで強い可能性を示してきました。しかし、スライド生成には根本的な課題があります。生成プロセスはテキスト中心である一方、その品質は視覚的な美的感覚によって左右されます。このモダリティギャップにより、現行モデルはしばしば美観面で最適ではないレイアウトのスライドを生成してしまいます。既存の解決策は通常、(1) 高い推論コストを要するものの得られる改善が限られる、重い視覚的リフレクションに依存するか、または (2) 大規模データセットでの微調整によって弱くて間接的な美的教師信号を与えるかのいずれかです。これに対し、美的原則を教師信号として明示的に用いることは未探索のままです。本研究では、スライド生成における美的レイアウト教師のために検証可能な報酬を備えた、強化学習フレームワーク AeSlides を提案します。スライドのレイアウト品質を定量化するための、一連の細心に設計された検証可能な指標群を導入し、重要なレイアウト上の問題を、正確・効率的・低コストな方法で捉えます。これらの検証可能な指標を活用し、美的に首尾一貫したレイアウトのためにスライド生成モデルを直接最適化する、GRPO ベースの強化学習手法を開発します。GLM-4.7-Flash に対して学習プロンプト 5K のみを用いるだけで、AeSlides はアスペクト比の適合率を 36% から 85% に向上させると同時に、余白を 44% 削減し、要素同士の衝突を 43% 減らし、視覚的なバランスの崩れを 28% 減少させます。人手による評価でも、全体の品質が大きく改善し、スコアが 3.31 から 3.56(+7.6%)へと上昇することが示されました。これは、モデルベースの報酬最適化およびリフレクションに基づくエージェント的アプローチの両方を上回り、さらに Claude-Sonnet-4.5 をもわずかに上回ります。これらの結果は、このような検証可能な美的パラダイムが、スライド生成を人間の美的嗜好に整合させるための、効率的でスケーラブルなアプローチを提供できることを示しています。本リポジトリは https://github.com/ympan0508/aeslides で公開しています。
AeSlides:検証可能な報酬によるLLMベースのスライド生成における美的レイアウトの最適化
arXiv cs.CV / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- AeSlidesは、テキスト中心のLLMスライド生成における「モダリティギャップ」を解決するため、美的レイアウトを明示的に教師信号として扱う枠組みを提案しています。
- スライドのレイアウト品質を数値化する、検証可能(verifiable)な指標群を設計し、アスペクト比の遵守、余白、要素の衝突、視覚バランスなどの主要課題を低コストで測定します。
- これらの検証可能な報酬を用い、GRPOベースの強化学習でスライド生成モデルを美的に整合したレイアウトへ直接最適化します。
- 実験ではGLM-4.7-Flashに対して5Kの学習プロンプトのみで、アスペクト比遵守が36%→85%に大きく改善し、余白−44%、衝突−43%、不均衡−28%といった欠点も削減できることが示されています。
- 人手評価でも総合品質が3.31→3.56(+7.6%)へ改善し、モデルベース報酬最適化や反射型のエージェント手法を上回り、Claude-Sonnet-4.5にもわずかに肉薄する結果となっています(コードはGitHubで公開)。




