AI Navigate

プレゼンテーションを学ぶ: エージェント性を持つスライド生成のための逆仕様報酬

arXiv cs.AI / 2026/3/18

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • OpenEnv互換の強化学習環境 SlideRL を紹介し、LLMエージェントがトピックを調査し、コンテンツを計画し、ツールを使用してプロフェッショナルな HTML 形式のスライドプレゼンテーションを生成できるようにする。
  • 生成されたスライドが元の目的をどれだけ忠実に伝えるかを測る逆仕様報酬を含む、複数要素の報酬系を提案する。
  • 専門家デモンストレーションからのプロンプトに基づく GRPO を用いた Qwen2.5-Coder-7B のファインチューニングを実演し、パラメータの 0.5% のみを更新することで、Claude Opus 4.6 の品質の 91.2% を達成し、ベースモデルに対して 33.1% の改善を実現した。
  • 六モデルにわたる 288 のマルチターン・ロールアウト軌跡を含むオープンソース資源として SlideRL を提供し、データセットとコードへのリンクも提供する。

要約: 自動プレゼンテーション生成は、整合性のあるコンテンツ作成、視覚デザイン、聴衆を意識したコミュニケーションを要する、依然として難しい課題です。 本研究は、OpenEnv対応の強化学習環境を提案し、LLMエージェントがツールを使用してトピックを調査し、コンテンツを計画し、専門的なHTMLスライドプレゼンテーションを生成することを学習します。 構造検証、レンダリング品質評価、LLMベースの美的スコアリング、コンテンツ品質指標、および生成されたスライドが意図した目的をどれだけ忠実に伝えるかを測る逆仕様報酬を組み合わせた、複数要素からなる報酬系を導入します。 逆仕様報酬は、生成されたスライドから元の仕様を回復しようとするLLMによる「逆タスク」であり、全体的な品質信号を提供します。 私たちのアプローチはGRPOを介してQwen2.5-Coder-7Bをファインチューニングし、Claude Opus 4.6を用いて収集した専門家デモから得られたプロンプト上で、パラメータの0.5%のみを訓練します。6つのモデルにまたがる48件の多様なビジネスブリーフを対象とした実験は、ファインチューニング済みの7Bモデルが Claude Opus 4.6 の品質の91.2%を達成し、ベースモデルより33.1%向上することを示しています。6モデルの比較は、指示遵守とツール使用の遵守が、単純なパラメータ数よりも、エージェント的タスク性能を決定することを明らかにします。私たちはSlideRLを提案します。6モデルすべてにわたる288件のマルチターン・ロールアウト軌跡から成るオープンソースデータセットです: https://huggingface.co/datasets/KarthikRagunathAnandaKumar/sliderl-multi-turn-rollouts コード: https://github.com/pushing-the-frontier/slide-forge-llm