AnyDoc:大規模なHTML/CSSデータ合成と高さを考慮した強化学習最適化によるドキュメント生成の強化
arXiv cs.CV / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- AnyDocは、複数のドキュメント作業を単一のHTML/CSS表現に統合するドキュメント生成フレームワークであり、幅広いドキュメントカテゴリとスタイルに対応します。
- 本プロジェクトでは、DocHTMLを作成するためのスケーラブルなHTML/CSSデータ合成パイプラインを導入しています。DocHTMLは、111カテゴリ・32スタイルにまたがり265,206サンプルを含む大規模データセットで、意図(intentions)、ソースコード、アセット、スクリーンショットなどの豊富なメタデータを備えています。
- AnyDocは、3つのタスク(意図からドキュメントへ、ドキュメントのderendering、要素からドキュメントへ)に対してマルチモーダルLLMを微調整します。
- 微調整中のオーバーフローを抑えるために、予測されたドキュメントの高さと目標の高さの差にペナルティを与える高さを考慮した強化学習(HARL)を追加する手法を採用します。
- 実験の結果、AnyDocは3つすべてのドキュメント生成タスクにおいて、汎用的なMLLМとタスク特化ベースラインの両方を上回ると報告されています。