AnyDoc:大規模なHTML/CSSデータ合成と高さを考慮した強化学習最適化によるドキュメント生成の強化

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • AnyDocは、複数のドキュメント作業を単一のHTML/CSS表現に統合するドキュメント生成フレームワークであり、幅広いドキュメントカテゴリとスタイルに対応します。
  • 本プロジェクトでは、DocHTMLを作成するためのスケーラブルなHTML/CSSデータ合成パイプラインを導入しています。DocHTMLは、111カテゴリ・32スタイルにまたがり265,206サンプルを含む大規模データセットで、意図(intentions)、ソースコード、アセット、スクリーンショットなどの豊富なメタデータを備えています。
  • AnyDocは、3つのタスク(意図からドキュメントへ、ドキュメントのderendering、要素からドキュメントへ)に対してマルチモーダルLLMを微調整します。
  • 微調整中のオーバーフローを抑えるために、予測されたドキュメントの高さと目標の高さの差にペナルティを与える高さを考慮した強化学習(HARL)を追加する手法を採用します。
  • 実験の結果、AnyDocは3つすべてのドキュメント生成タスクにおいて、汎用的なMLLМとタスク特化ベースラインの両方を上回ると報告されています。

Abstract

文書生成は、AI駆動のコンテンツ制作分野において、ますます注目を集めています。本研究では、AnyDocというフレームワークを導入することで、その限界を押し広げます。AnyDocは、幅広い文書カテゴリにまたがる複数の生成タスクを、統一されたHTML/CSS形式で扱うことができる枠組みです。既存の人手で作られた文書データセットは、カバレッジと規模の面で制約があるため、その限界を克服するべく、AnyDocはまず、HTML/CSS形式で文書を自動生成するためのスケーラブルなデータ合成パイプラインを確立します。このパイプラインは、111カテゴリおよび32種類の異なるスタイルにまたがる大規模データセットDocHTMLを生成し、265,206件の文書サンプルを含みます。さらに、すべての文書には、デザイン意図、HTML/CSSのソースコード、ビジュアルアセット、レンダリングされたスクリーンショットなどを含む包括的なメタデータが付与されています。厳選されたデータセットを基に、AnyDocはマルチモーダル大規模言語モデル(MLLM)を微調整し、3つの実用的な文書生成タスク、すなわち意図から文書へ、文書のderendering、要素から文書へを達成します。微調整中に観測されたコンテンツのあふれ(オーバーフロー)問題に対処するため、AnyDocはさらに、高さを考慮した強化学習(HARL)の事後学習手順を取り入れます。予測された文書の高さと目標文書の高さの差に基づいて報酬関数を定義することで、オーバーフローを罰し、HARL中に段階的に緩和します。これにより、全体的な性能が向上します。定性的および定量的な実験により、AnyDocが3つのタスクすべてにおいて、汎用的なMLLMとタスク固有のベースラインの両方を上回ることが示されます。