AnyDoc：大規模なHTML/CSSデータ合成と高さを考慮した強化学習最適化によるドキュメント生成の強化

arXiv cs.CV / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

AnyDocは、複数のドキュメント作業を単一のHTML/CSS表現に統合するドキュメント生成フレームワークであり、幅広いドキュメントカテゴリとスタイルに対応します。
本プロジェクトでは、DocHTMLを作成するためのスケーラブルなHTML/CSSデータ合成パイプラインを導入しています。DocHTMLは、111カテゴリ・32スタイルにまたがり265,206サンプルを含む大規模データセットで、意図（intentions）、ソースコード、アセット、スクリーンショットなどの豊富なメタデータを備えています。
AnyDocは、3つのタスク（意図からドキュメントへ、ドキュメントのderendering、要素からドキュメントへ）に対してマルチモーダルLLMを微調整します。
微調整中のオーバーフローを抑えるために、予測されたドキュメントの高さと目標の高さの差にペナルティを与える高さを考慮した強化学習（HARL）を追加する手法を採用します。
実験の結果、AnyDocは3つすべてのドキュメント生成タスクにおいて、汎用的なMLLМとタスク特化ベースラインの両方を上回ると報告されています。

Abstract

文書生成は、AI駆動のコンテンツ制作分野において、ますます注目を集めています。本研究では、AnyDocというフレームワークを導入することで、その限界を押し広げます。AnyDocは、幅広い文書カテゴリにまたがる複数の生成タスクを、統一されたHTML/CSS形式で扱うことができる枠組みです。既存の人手で作られた文書データセットは、カバレッジと規模の面で制約があるため、その限界を克服するべく、AnyDocはまず、HTML/CSS形式で文書を自動生成するためのスケーラブルなデータ合成パイプラインを確立します。このパイプラインは、111カテゴリおよび32種類の異なるスタイルにまたがる大規模データセットDocHTMLを生成し、265,206件の文書サンプルを含みます。さらに、すべての文書には、デザイン意図、HTML/CSSのソースコード、ビジュアルアセット、レンダリングされたスクリーンショットなどを含む包括的なメタデータが付与されています。厳選されたデータセットを基に、AnyDocはマルチモーダル大規模言語モデル（MLLM）を微調整し、3つの実用的な文書生成タスク、すなわち意図から文書へ、文書のderendering、要素から文書へを達成します。微調整中に観測されたコンテンツのあふれ（オーバーフロー）問題に対処するため、AnyDocはさらに、高さを考慮した強化学習（HARL）の事後学習手順を取り入れます。予測された文書の高さと目標文書の高さの差に基づいて報酬関数を定義することで、オーバーフローを罰し、HARL中に段階的に緩和します。これにより、全体的な性能が向上します。定性的および定量的な実験により、AnyDocが3つのタスクすべてにおいて、汎用的なMLLMとタスク固有のベースラインの両方を上回ることが示されます。

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

Dev.to

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

Dev.to

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

AnyDoc：大規模なHTML/CSSデータ合成と高さを考慮した強化学習最適化によるドキュメント生成の強化

要点

Abstract

関連記事

三菱電機が中国新興と協業、AIと人型ロボットで無人工場を実現へ

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

GDPRとAIトレーニングデータ：個人データで学習する前に知っておくべきこと

体現型エージェントのフィードバックループによる、郷土（継承）言語活性化プログラムのためのエッジ・ツー・クラウド・スウォーム協調

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer