PaperVoyager:視覚言語モデルで構築するインタラクティブWeb

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、「要約やスライド」といった静的な出力ではなく、PDFの研究論文を直接、実行可能でインタラクティブなWebシステムへ変換する「Paper-to-Interactive-System」エージェントを提案している。
  • PaperVoyagerは、論文の仕組みとインタラクションのロジックを明示的にモデル化する構造化された生成フレームワークを導入し、動的な振る舞いと状態遷移を支援する。
  • 著者らは、新たに19本の論文を対象としたベンチマークを定義・評価しており、そこでは専門家が構築したインタラクティブ・システムを正解(グラウンドトゥルース)の参照として用いている。
  • 実験結果では、PaperVoyagerが生成されるインタラクティブWebシステムの品質を大幅に向上させることが報告されており、インタラクティブな技術論文理解のための新しいパラダイムとして位置付けられている。

要旨: 近年の視覚言語モデルの進歩により、複雑な推論、ツール利用、文書理解のための自律エージェントが可能になってきた。しかし、既存の文書エージェントは主に論文を要約、Webページ、スライドといった静的アーティファクトへ変換するだけであり、動的な仕組みや状態遷移を伴う技術論文には不十分である。本研究では、研究論文を実行可能なインタラクティブWebシステムへ変換する「Paper-to-Interactive-System エージェント」を提案する。PDFの論文が与えられたとき、エージェントは、人手を介さずに論文理解、システムモデリング、インタラクティブWebページの合成といった処理をエンドツーエンドで実行し、ユーザが入力を操作し、動的な挙動を観察できるようにする。本タスクを評価するために、専門家が構築したインタラクティブシステムを正解(グラウンドトゥルース)として、19本の研究論文を組にしたベンチマークを導入する。さらに、合成の際に仕組みとインタラクションのロジックを明示的にモデル化する、構造化生成フレームワークである PaperVoyager も提案する。実験の結果、PaperVoyager は生成されたインタラクティブシステムの品質を大幅に向上させ、インタラクティブな科学論文理解の新しいパラダイムを提供することが示された。