Deep-Reporter: 根拠に基づくマルチモーダル長文生成のための深いリサーチ

arXiv cs.CL / 2026/4/14

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、既存の深いリサーチシステムのテキスト中心の限界に対処する、根拠に基づくマルチモーダル長文生成を目的としたエージェント型フレームワークであるDeep-Reporterを提案する。

要旨: 近年のエージェント型サーチの枠組みにより、反復的な計画と検索によって深い調査が可能になり、幻覚を抑制し、事実に基づく根拠付けを強化できるようになってきました。 しかし、これらは依然としてテキスト中心であり、現実世界の専門家レポートを特徴づけるマルチモーダルな証拠を見落としています。 私たちは、差し迫った課題として「マルチモーダルな長文生成」を提起します。 それに基づき、Deep-Reporter を、根拠に基づくマルチモーダル長文生成のための統一されたエージェント型フレームワークとして提案します。 これは次を統括します: (i) エージェント型マルチモーダル検索とフィルタリングにより、テキストの段落と情報密度の高いビジュアルを取得し、フィルタリングすること; (ii) チェックリストに導かれた漸進的統合により、画像とテキストの統合の一貫性を保証し、最適な引用箇所を配置すること; そして (iii) 長距離の一貫性と局所的な流暢さのバランスを取るための、反復的なコンテキスト管理。 モデル最適化のために、8K の高品質なエージェント型トレースを生成する、厳密なキュレーションのパイプラインを開発します。 さらに、M2LongBench を導入します。これは、9つの領域にまたがる247の研究タスクから成る包括的なテストベッドと、安定したマルチモーダル・サンドボックスを備えています。 大規模な実験の結果、長文のマルチモーダル生成は非常に難しい課題であり、特にマルチモーダルの選択と統合が難所であることが示されます。 そして、効果的な事後学習によって、そのギャップを埋められることを示します。